巨人网络AI Lab与清华大学电子工程系SATLab研究团队近日联合发布一项重大突破:首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。在当前通用TTS(文 ...
巨人网络AI Lab与清华大学电子工程系SATLab研究团队近日联合发布一项重大突破:首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。 在当前通用TTS(文本转语音)大模型能力惊人的时代,方言TTS(Dialect TTS)仍是业界难以触及的“灰色地带”。现有的工业级方言模型过于依赖巨量的专有数据,导致方言从业者和研究者面临缺乏统一语料构建方法和端到端开源框架的困境。 由双方联合首创的DiaMoE-TTS框架,为这一难题提供了一套开源的完整解决方案,其性能在一定程度上可媲美工业级方言TTS模型。该方案的关键创新在于:
在推出广东话、四川话、上海话等中文方言版本之前,该研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,证明该方法具备全球范围内的多语言可扩展性与稳健性。 巨人网络AI Lab与清华大学电子工程系SATLab表示,希望通过DiaMoE-TTS框架的开源,让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架,确保小众语言与方言的声音不再被通用大模型的洪流所淹没,而是能通过开源的力量被更广泛地听见与传承。 |
评论