阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS,主打“零样本、多角色、跨语言”语音合成。新模型在词错误率(WER)国际基准上显著优于主流商用引擎,同步上线阿里云控制台,开发者可0元调用100万字符额度。49种高 ...
|
阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS,主打“零样本、多角色、跨语言”语音合成。新模型在词错误率(WER)国际基准上显著优于主流商用引擎,同步上线阿里云控制台,开发者可0元调用100万字符额度。 49种高品质音色,一键切换角色 从温柔少女到方言大叔,Qwen3-TTS 内置49种官方音色,覆盖旁白、客服、直播、教育等场景;支持10种语言 +9种中国方言(粤语、四川话、东北话等),同一文本可秒级切换音色,无需重新训练。 文本→语气→节奏,全自动“拟人化” 模型采用自回归声学模型 + 韵律预测模块,可根据标点、情感标签自动升降调、插入停顿;在48kHz 采样率下,MOS 得分达4.53,显著高于行业平均4.1。 WER 显著优于商用模型 在多语言语音合成公开测试集(MLS + Common Voice)上,Qwen3-TTS 英文 WER 降至2.8%,中文1.9%,较 Azure TTS 再降18% 与24%,刷新开源 SOTA。 教育场景“零样本”落地 阿里云同步发布“一键朗读”插件,教师上传 PPT 即可自动生成带方言的讲解音频,目前已在上海120所中小学试点,帮助学生用“家乡话”听写单词。 定价与入口 - 免费层:100万字符/月,49种音色不限调用 - 付费层:0.8元/万字符,支持 SSML 与实时流式合成 - 控制台:console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS(已全量) 下一步计划 阿里透露,2025Q1将开放“10秒音色克隆”接口,用户上传短音频即可生成私有说话人,并推出80kHz 超采样版本,瞄准播客、有声书与虚拟偶像市场。 行业观察
近期文章
推荐阅读
热门问答
|
评论