返回顶部
AiGoe.com 首页 AI快讯

阿里发布超强语音合成模型 Qwen3-TTS,49 种音色满足你的声音需求! ...

AI快讯 2025-12-11 18:49 158人浏览 0人回复
摘要

阿里通义千问发布新一代语音合成大模型Qwen3-TTS,即日起通过Qwen API向全球开发者免费开放。模型提供49种多角色音色,支持10种主流语言及10种中国方言,官方称其在MiniMax TTS multilingual test set上的平均词错误 ...

 阿里通义千问发布新一代语音合成大模型Qwen3-TTS,即日起通过Qwen API向全球开发者免费开放。模型提供49种多角色音色,支持10种主流语言及10种中国方言,官方称其在MiniMax TTS multilingual test set上的平均词错误率(WER)优于MiniMax与ElevenLabs,拟人化程度逼近真人。


49种音色即选即用  

- 角色库:涵盖性别、年龄、地域及角色设定——「撒娇搞怪茉兔」「严厉老师墨讲师」「智慧老者沧明子」等一键切换  

- 场景适配:播客、有声书、游戏NPC、智能客服均可秒级换声,无需额外训练

10语10方言,跨语种WER领先  

- 主流语言:中、英、德、意、法等10种语言全覆盖  

- 方言列表:普通话、粤语、四川话等10种方言,保留地道口音与语调  

- 客观指标:MiniMax TTS multilingual test set 平均WER低于ElevenLabs,合成准确率提升约12%

韵律与语速:文本驱动,真人级自然度  

- 自适应语速:根据文本情绪自动调节快慢与停顿  

- 韵律模型:音节级重音与语调预测,MOS评分达4.6,逼近真人4.8  

- 实时流式:首包延迟<300ms,适合直播配音与对话场景

免费接入 & 商用友好  

- API定价:目前免费开放,无调用次数限制  

- 授权条款:默认支持商业用途,无需额外授权费  

- 集成示例:一句HTTPS请求即可接入,10行代码完成语音播报

下一步:方言克隆 + 边缘部署  

阿里透露,2025年Q1将推出「方言语音克隆」功能,5秒音频即可复刻地方口音;Q2发布边缘盒子版本,支持离线局域网部署,目标覆盖智慧景区、车载语音等场景。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号