“开口即角色”阿里 Qwen3-TTS 登场49 种音色 + 10 语言 9 方言WER 碾压主流商用模型 ...

AiGoe.com › 首页 › AI快讯 ›

AI快讯 2025-12-8 15:40 56人浏览 0人回复

删除收藏分享邀请

摘要

阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS，主打“零样本、多角色、跨语言”语音合成。新模型在词错误率（WER）国际基准上显著优于主流商用引擎，同步上线阿里云控制台，开发者可0元调用100万字符额度。49种高 ...

阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS，主打“零样本、多角色、跨语言”语音合成。新模型在词错误率（WER）国际基准上显著优于主流商用引擎，同步上线阿里云控制台，开发者可0元调用100万字符额度。

49种高品质音色，一键切换角色

从温柔少女到方言大叔，Qwen3-TTS 内置49种官方音色，覆盖旁白、客服、直播、教育等场景;支持10种语言 +9种中国方言（粤语、四川话、东北话等），同一文本可秒级切换音色，无需重新训练。

文本→语气→节奏，全自动“拟人化”

模型采用自回归声学模型 + 韵律预测模块，可根据标点、情感标签自动升降调、插入停顿;在48kHz 采样率下，MOS 得分达4.53，显著高于行业平均4.1。

WER 显著优于商用模型

在多语言语音合成公开测试集（MLS + Common Voice）上，Qwen3-TTS 英文 WER 降至2.8%，中文1.9%，较 Azure TTS 再降18% 与24%，刷新开源 SOTA。

教育场景“零样本”落地

阿里云同步发布“一键朗读”插件，教师上传 PPT 即可自动生成带方言的讲解音频，目前已在上海120所中小学试点，帮助学生用“家乡话”听写单词。

定价与入口

- 免费层:100万字符/月，49种音色不限调用

- 付费层:0.8元/万字符，支持 SSML 与实时流式合成

- 控制台:console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS（已全量）

下一步计划

阿里透露，2025Q1将开放“10秒音色克隆”接口，用户上传短音频即可生成私有说话人，并推出80kHz 超采样版本，瞄准播客、有声书与虚拟偶像市场。

行业观察

本文暂无评论，快来抢沙发!

admin 关注Ta

0 粉丝545 主题

该作者很懒，什么也没有填写

近期文章

推荐阅读

热门问答

AiGoe.com 成立于2014年8月，是目前国内优秀的开源技术社区，拥有超过300万会员，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。