返回顶部
AiGoe.com 首页 AI快讯

腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频

AI快讯 2025-9-1 17:47 28人浏览 0人回复
摘要

近日,腾讯 ARC 团队发布了一款名为 AudioStory 的模型,旨在利用大语言模型(LLMs)生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。A ...

 近日,腾讯 ARC 团队发布了一款名为 AudioStory 的模型,旨在利用大语言模型(LLMs)生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。

AudioStory 的核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合,AudioStory 能够生成结构化且具有时间一致性的音频叙事。该模型具有强大的指令跟随推理生成能力,可以将复杂的叙事查询分解为按时间顺序排列的子任务,同时保持场景转换的连贯性和情感基调的一致性。

AudioStory 的两个显著特点包括:首先,去耦合的桥接机制,能够有效地将大语言模型与音频生成器之间的协作分成两个专业化的部分;其次,端到端的训练方式,统一指令理解与音频生成,提升了组件之间的协同效应。

此外,研究团队还建立了一个名为 AudioStory-10K 的基准数据集,涵盖动画音景和自然声音叙事等多样化领域。通过大量实验,AudioStory 在单音频生成和叙事音频生成方面的表现优于以往的文本到音频生成模型,展现出卓越的指令跟随能力和音频质量。

目前,团队已经发布了模型的推理代码,并展示了一系列演示视频,包括经典动画《猫和老鼠》的配音示例,以及基于文本生成长音频的应用案例,展示了该模型的广泛适用性和强大功能。

项目:https://github.com/TencentARC/AudioStory

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
星点互联 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作