机器人视觉大飞跃！新模型助力 AI “看懂” 三维世界，成功率提升 31% ...

AiGoe.com › 首页 › AI快讯 ›

机器人视觉大飞跃！新模型助力 AI “看懂” 三维世界，成功率提升 31% ...

AI快讯 2025-9-30 16:34 117人浏览 0人回复

删除收藏分享邀请

摘要

在机器人领域，让人工智能真正 “看懂” 三维世界一直是一个棘手的问题。传统的视觉语言模型（VLA）大多依赖于二维图像和文本数据训练，难以理解真实环境中的三维空间。然而，最近来自上海交通大学和剑桥大学的研究 ...

在机器人领域，让人工智能真正 “看懂” 三维世界一直是一个棘手的问题。传统的视觉语言模型（VLA）大多依赖于二维图像和文本数据训练，难以理解真实环境中的三维空间。然而，最近来自上海交通大学和剑桥大学的研究团队提出了一种名为 Evo-0的新型增强视觉语言动作模型，通过轻量化的方式注入3D 几何先验，使得机器人在复杂任务中的空间理解能力得到了显著提升。

Evo-0模型的创新在于其利用视觉几何基础模型（VGGT），从多视角的 RGB 图像中提取出三维结构信息，并将这些信息与已有的视觉语言模型相结合。这种方法不仅避免了使用额外传感器或显式深度输入的需要，还显著提升了空间感知能力。在 RLBench 仿真实验中，Evo-0在五个需要精细操作的任务上，成功率比基线模型 pi0高出15%，并且在开放 VLA(openvla-oft)上提升了31%。

具体而言，Evo-0将 VGGT 作为空间编码器，引入了通过 VGGT 提取的 t3^D token，这些 token 包含了深度上下文和空间关系等几何信息。通过交叉注意力融合模块，模型能够将提取的二维视觉 token 与三维 token 进行有效结合，提升了对空间布局和物体关系的理解能力。这种方法在保证训练效率的同时，灵活性和部署便捷性也得到了提高。

在真实世界的实验中，Evo-0在处理复杂空间任务时表现出色，包括目标居中放置、插孔、密集抓取等任务，均超过了基线模型，平均成功率提升了28.88%。特别是在对复杂空间关系的理解和操控能力方面，Evo-0展现出显著优势。

综上所述，Evo-0通过巧妙的空间信息融合，为未来的通用机器人策略提供了一条新的可行路径。该研究成果不仅在学术界引发了广泛关注，也为机器人领域的实际应用带来了新的可能性。

论文地址：https://arxiv.org/pdf/2507.00416

上一篇：DeepMind 重磅推出 “帧链” 概念：视频模型或将实现全面视觉理解 ...

下一篇：蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview，代码生成能力超越 GPT-5 ...

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

admin 关注Ta

0 粉丝546 主题

该作者很懒，什么也没有填写

近期文章