突破瓶颈！上交大与上海AI Lab携手提升多模态大模型反思能力 ...

AiGoe.com › 首页 › AI快讯 ›

突破瓶颈！上交大与上海AI Lab携手提升多模态大模型反思能力 ...

AI快讯 2025-10-22 06:32 233人浏览 0人回复

删除收藏分享邀请

摘要

多模态大模型（MLLM）在解决复杂问题方面逐渐展现出强大的潜力。然而，这些模型在处理复杂推理时常常显得 “耿直”，缺乏反思能力，导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题，上海交通大学与上海 ...

多模态大模型（MLLM）在解决复杂问题方面逐渐展现出强大的潜力。然而，这些模型在处理复杂推理时常常显得 “耿直”，缺乏反思能力，导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题，上海交通大学与上海人工智能实验室的研究团队推出了一个名为 MM-HELIX 的创新项目，旨在让 AI 学习像人类一样进行长链反思性推理。

MM-HELIX 不仅仅是一个项目，更是一个全面的生态系统。团队首先构建了一个被称为 “终极考场” 的 MM-HELIX 基准测试，以评估多模态大模型的反思推理能力。这个基准测试涉及42种高度复杂的任务，涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示，即便是当前最顶尖的模型，准确率依然低迷，特别是在多模态输入下，表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。

为帮助多模态大模型更好地学习反思，研究团队还打造了一个名为 MM-HELIX-100K 的数据集，包含10万个高质量样本，旨在通过 “步骤启发式响应生成”（SERG）流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间，并有效减少了不必要的冗余思考。

此外，团队还提出了一种自适应混合策略优化算法（AHPO），作为智能导师，帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时，也能够培养独立思考的能力。

经过这一系列创新，搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了18.6%。这一进步不仅突破了原有模型的瓶颈，还展现出反思能力的强大泛化性，证明了该项目对 AI 发展的重大意义。

上一篇：Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

下一篇：NeurIPS 2025 最佳论文揭晓：阿里通义千问靠“门控注意力”摘下中国唯一大奖 ...

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

admin 关注Ta

0 粉丝545 主题

该作者很懒，什么也没有填写

近期文章

推荐阅读

热门问答

AiGoe.com 成立于2014年8月，是目前国内优秀的开源技术社区，拥有超过300万会员，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

商务合作：sherry@neoconex.com
媒体合作：media@neoconex.com
投稿合作：tougao@neoconex.com
用户QQ 1群：12432433334（已满）
用户QQ 2群：57544524364

官方手机版
微信公众号
商务合作

| 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号