近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。该技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新机制实现从简单到复杂场景的精准图像生 ...
近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。该技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新机制实现从简单到复杂场景的精准图像生成。相关论文已被人工智能顶级会议 NeurIPS 2025 收录。精准构图:解决布局控制难题在当前 AI 绘画领域,虽然“文字生成图像”技术已趋成熟,但在“布局控制生成”方面,AI模型往往难以严格遵循用户提供的空间约束(如边界框或分割掩码),常出现位置不准或语义脱节的现象。InstanceAssemble 的出现,标志着 AI 绘画进入了精准构图的新阶段。 该技术基于主流的扩散变换器架构,其核心创新是提出了 “实例拼装注意力”(Instance Assembly Attention)机制。用户只需提供每个物体的具体位置(边界框)和内容描述,AI 即可在指定区域生成符合要求的图像。无论是少量物体的简单画面,还是实例密集的复杂场景,InstanceAssemble 都能保持高度排版精度和语义一致性。 轻量化适配:高效融入现有模型值得关注的是,InstanceAssemble 采用轻量化适配方案,无需对整个大模型重新训练,仅需极少额外参数即可适配现有模型。例如:
这一设计不仅降低了训练成本,也方便开发者在现有平台上快速部署。 数据与评估:助力行业应用为了更好地评估技术性能,研究团队推出了包含 9万个实例的“Denselayout”基准测试集,并设计了全新的评估指标,量化布局控制和语义一致性表现。InstanceAssemble 已在 GitHub 开源,代码和预训练模型均可下载使用,有望在 设计、广告及内容创意等行业产生重要影响。 业内专家认为,InstanceAssemble 的发布不仅提升了 AI 绘画的可控性和精度,也为内容创意领域提供了更高效的工具,标志着布局控制生成技术迈入实用化阶段。 |
评论