返回顶部
AiGoe.com 首页 AI快讯

开源!腾讯混元图像3.0正式上线,支持中英文精准渲染、长文本生成 ...

AI快讯 2025-9-28 17:13 51人浏览 0人回复
摘要

腾讯宣布正式发布混元图像3.0,这是业界首个开源的商用级原生多模态生图模型。该模型拥有80亿参数,是目前效果最优、参数量最大的开源生图模型,能够与顶尖闭源模型相媲美。用户可以通过腾讯混元官网体验该模型,模 ...

 腾讯宣布正式发布混元图像3.0,这是业界首个开源的商用级原生多模态生图模型。该模型拥有80亿参数,是目前效果最优、参数量最大的开源生图模型,能够与顶尖闭源模型相媲美。用户可以通过腾讯混元官网体验该模型,模型的权重和加速版本也已在 GitHub 和 Hugging Face 等开源社区发布,供广大开发者免费下载和使用。

原生多模态技术架构

混元图像3.0的亮点在于其 “原生多模态” 技术架构,允许用户通过一个模型同时处理文字、图片、视频和音频等多种输入和输出形式,而不再依赖多个模型的组合。这种创新使得模型具备了图像生成和语义理解的双重能力,类似于一个拥有思考能力的 “智能画家”。

高级语义理解与自动生成

该模型的语义理解能力显著提升,用户只需简单输入提示词,例如 “生成一个月全食的四格科普漫画”,模型便能自动生成完整的漫画,无需用户对每一格进行详细描述。

混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。

官方案例:比如输入:“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求:1.画面左侧是模特的OOTD全身图2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

此外,混元图像3.0可以处理复杂的文字要求,生成详细的商品图、海报和插画,满足各类创作需求。

提升创作效率

混元图像3.0的发布不仅方便了插画师和设计师,还能帮助缺乏美术基础的内容创作者更轻松地制作出高质量的视觉内容。原本需要数小时的创作过程,现在可能仅需几分钟就能完成,大幅提升了创作效率。

多任务训练与未来展望

混元图像3.0基于50亿图文对和6TB 语料数据进行多模态混合训练,充分融合了多任务效果,从而实现超强的语义理解能力。腾讯团队透露,未来将陆续推出图生图、图像编辑、多轮交互等新功能,以进一步增强用户体验。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号