开源！腾讯混元图像3.0正式上线，支持中英文精准渲染、长文本生成 ...

AiGoe.com › 首页 › AI快讯 ›

开源！腾讯混元图像3.0正式上线，支持中英文精准渲染、长文本生成 ...

AI快讯 2025-9-28 17:13 220人浏览 0人回复

删除收藏分享邀请

摘要

腾讯宣布正式发布混元图像3.0，这是业界首个开源的商用级原生多模态生图模型。该模型拥有80亿参数，是目前效果最优、参数量最大的开源生图模型，能够与顶尖闭源模型相媲美。用户可以通过腾讯混元官网体验该模型，模 ...

腾讯宣布正式发布混元图像3.0，这是业界首个开源的商用级原生多模态生图模型。该模型拥有80亿参数，是目前效果最优、参数量最大的开源生图模型，能够与顶尖闭源模型相媲美。用户可以通过腾讯混元官网体验该模型，模型的权重和加速版本也已在 GitHub 和 Hugging Face 等开源社区发布，供广大开发者免费下载和使用。

原生多模态技术架构

混元图像3.0的亮点在于其 “原生多模态” 技术架构，允许用户通过一个模型同时处理文字、图片、视频和音频等多种输入和输出形式，而不再依赖多个模型的组合。这种创新使得模型具备了图像生成和语义理解的双重能力，类似于一个拥有思考能力的 “智能画家”。

高级语义理解与自动生成

该模型的语义理解能力显著提升，用户只需简单输入提示词，例如 “生成一个月全食的四格科普漫画”，模型便能自动生成完整的漫画，无需用户对每一格进行详细描述。

混元图像3.0语义理解能力和美学质感也得到了大幅提升，可以实现对用户指令的精确生成，包括图片中的小字和长文本生成，都能较好地实现。

官方案例:比如输入:“你是一个小红书穿搭博主，请根据模特穿搭生成一张封面图片，要求:1.画面左侧是模特的OOTD全身图2.右侧是衣服的展示，分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格:实物摄影，要求真实，有氛围感，秋季美拉德色系穿搭”。在这个提示词下，混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

此外，混元图像3.0可以处理复杂的文字要求，生成详细的商品图、海报和插画，满足各类创作需求。

提升创作效率

混元图像3.0的发布不仅方便了插画师和设计师，还能帮助缺乏美术基础的内容创作者更轻松地制作出高质量的视觉内容。原本需要数小时的创作过程，现在可能仅需几分钟就能完成，大幅提升了创作效率。

多任务训练与未来展望

混元图像3.0基于50亿图文对和6TB 语料数据进行多模态混合训练，充分融合了多任务效果，从而实现超强的语义理解能力。腾讯团队透露，未来将陆续推出图生图、图像编辑、多轮交互等新功能，以进一步增强用户体验。

上一篇：Moondream3.0发布，多项基准测试超越了 GPT-5 等顶尖模型

下一篇：腾讯重磅发布 “混元图像 3.0”，开创多模态图像生成新时代

开源！腾讯混元图像3.0正式上线，支持中英文精准渲染、长文本生成 ...

相关阅读

腾讯海外大模型品牌更名:混元（Hunyuan）简化为“Tencent HY”