返回顶部
AiGoe.com 首页 AI快讯

突破瓶颈!上交大与上海AI Lab携手提升多模态大模型反思能力 ...

AI快讯 2025-10-22 06:32 8人浏览 0人回复
摘要

多模态大模型(MLLM)在解决复杂问题方面逐渐展现出强大的潜力。然而,这些模型在处理复杂推理时常常显得 “耿直”,缺乏反思能力,导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题,上海交通大学与上海 ...

 多模态大模型(MLLM)在解决复杂问题方面逐渐展现出强大的潜力。然而,这些模型在处理复杂推理时常常显得 “耿直”,缺乏反思能力,导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题,上海交通大学与上海人工智能实验室的研究团队推出了一个名为 MM-HELIX 的创新项目,旨在让 AI 学习像人类一样进行长链反思性推理。

MM-HELIX 不仅仅是一个项目,更是一个全面的生态系统。团队首先构建了一个被称为 “终极考场” 的 MM-HELIX 基准测试,以评估多模态大模型的反思推理能力。这个基准测试涉及42种高度复杂的任务,涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示,即便是当前最顶尖的模型,准确率依然低迷,特别是在多模态输入下,表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。

为帮助多模态大模型更好地学习反思,研究团队还打造了一个名为 MM-HELIX-100K 的数据集,包含10万个高质量样本,旨在通过 “步骤启发式响应生成”(SERG)流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间,并有效减少了不必要的冗余思考。

此外,团队还提出了一种自适应混合策略优化算法(AHPO),作为智能导师,帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时,也能够培养独立思考的能力。

经过这一系列创新,搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了18.6%。这一进步不仅突破了原有模型的瓶颈,还展现出反思能力的强大泛化性,证明了该项目对 AI 发展的重大意义。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号