腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

AiGoe.com › 首页 › AI快讯 ›

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

AI快讯 2025-9-1 17:47 130人浏览 0人回复

删除收藏分享邀请

摘要

近日，腾讯 ARC 团队发布了一款名为 AudioStory 的模型，旨在利用大语言模型（LLMs）生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。A ...

近日，腾讯 ARC 团队发布了一款名为 AudioStory 的模型，旨在利用大语言模型（LLMs）生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。

AudioStory 的核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合，AudioStory 能够生成结构化且具有时间一致性的音频叙事。该模型具有强大的指令跟随推理生成能力，可以将复杂的叙事查询分解为按时间顺序排列的子任务，同时保持场景转换的连贯性和情感基调的一致性。

AudioStory 的两个显著特点包括:首先，去耦合的桥接机制，能够有效地将大语言模型与音频生成器之间的协作分成两个专业化的部分;其次，端到端的训练方式，统一指令理解与音频生成，提升了组件之间的协同效应。

此外，研究团队还建立了一个名为 AudioStory-10K 的基准数据集，涵盖动画音景和自然声音叙事等多样化领域。通过大量实验，AudioStory 在单音频生成和叙事音频生成方面的表现优于以往的文本到音频生成模型，展现出卓越的指令跟随能力和音频质量。

目前，团队已经发布了模型的推理代码，并展示了一系列演示视频，包括经典动画《猫和老鼠》的配音示例，以及基于文本生成长音频的应用案例，展示了该模型的广泛适用性和强大功能。

项目：https://github.com/TencentARC/AudioStory

上一篇：上海AI实验室发布多模态大模型书生·万象 InternVL3.5

下一篇：即梦AI正式上线火山引擎面向企业开放 API 服务

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

相关阅读

阿里重磅开源AgentScope 1.0：智能体开发全链路革新

苹果人工智能领军者加入 Meta，AI 人才流失潮加剧

瑞士重磅发布自主开源AI大模型Apertus