返回顶部
AiGoe.com 首页 AI快讯

阿里通义推出 Qwen3-ASR-Toolkit,实现音视频转录新突破

AI快讯 2025-9-24 10:38 89人浏览 0人回复
摘要

近日,阿里通义 Qwen 团队发布了一款名为 Qwen3-ASR-Toolkit 的开源 Python 命令行工具。这款工具旨在为用户提供更为便捷的音视频转录服务,特别是在音频时长方面,突破了 Qwen3-ASR-Flash API 的三分钟限制,能够实 ...

 近日,阿里通义 Qwen 团队发布了一款名为 Qwen3-ASR-Toolkit 的开源 Python 命令行工具。这款工具旨在为用户提供更为便捷的音视频转录服务,特别是在音频时长方面,突破了 Qwen3-ASR-Flash API 的三分钟限制,能够实现小时级的快速转录。这一新工具的推出,无疑为需要进行大规模音频转录的用户提供了强有力的支持。

Qwen3-ASR-Flash 是通义千问系列中最新的语音识别模型,经过海量多模态数据及千万小时规模的自动语音识别(ASR)数据训练而成。它的强大性能为用户提供了高准确率的语音识别能力,使得长时间的音频和视频内容可以被有效转录成文本,极大地提升了工作效率。

Qwen3-ASR-Toolkit 采用了智能静音切分技术(VAD),确保转录过程中句子的完整性。同时,该工具能够自动将任意采样率的音频文件重采样为16kHz 单声道,以提高处理效果。此外,它还支持多线程并行上传分片的功能,这一特性显著缩短了总耗时,使得用户在使用过程中体验更加流畅。

在支持的媒体格式方面,Qwen3-ASR-Toolkit 基于 FFmpeg,几乎涵盖了所有主流音频和视频格式,包括 mp4、mov、mkv、mp3、wav、m4a 等,这使得用户在进行音视频转录时,能够更加灵活地选择文件类型,无需担心格式兼容问题。

github:https://github.com/QwenLM/Qwen3-ASR-Toolkit

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号