LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架

显示全部楼层

人形机器人控制领域的突破性探索：LeVERB 框架的核心创新与技术架构

在人形机器人控制领域，如何实现同时具备精准语义理解能力与高效动态适应性的全身控制方案，始终是制约具身智能技术落地的核心难题。针对这一痛点，加州大学伯克利分校携手多国顶尖研究机构，提出了全新的LeVERB（Latent Vision-Language-Encoded Robot Behavior）控制框架。该框架创新性地引入分层潜变量指令跟踪机制，首次实现了基于视觉 - 语言双模信息驱动的人形机器人全身精准控制，为机器人从仿真环境到真实应用场景的零样本迁移，提供了极具突破性的技术路径。

一、核心挑战：传统 VLA 模型的动态控制技术瓶颈

语义 - 动力学映射断裂难题
现有主流视觉 - 语言 - 动作（VLA）模型，普遍依赖人工设计的低维动作词汇库（如末端执行器位姿参数）开展控制决策，这种模式难以有效捕捉人形机器人高维肢体结构的复杂动态特性。以 NaVILA 等典型方案为例，在坐姿交互、全身协同避障等复杂任务中，其任务成功率不足 30%，核心症结便在于缺乏对机器人全身动力学系统的精细化建模能力。
仿真 - 真实环境迁移效率桎梏
传统控制方法往往陷入 “数据依赖” 或 “环境失真” 的双重困境：一类方案需要依托数千小时的真实场景示教数据完成模型训练，时间与人力成本极高；另一类方案则因过度简化仿真环境的物理参数，导致模型迁移至真实场景后出现严重的动态误差。例如，ManiFM 方法在真实人形机器人上部署时，动作执行的变形率超过 40%，难以应对地面摩擦系数变化、关节阻尼差异等真实物理环境中的复杂变量。

二、技术框架：原创双系统分层协同控制架构

LeVERB 框架的核心创新点，在于构建了 **“视觉 - 语言潜变量编码系统” 与 “分层指令跟踪执行系统”** 深度耦合的双系统分层控制架构，通过两级系统的协同运作，实现语义理解与动态控制的精准衔接。

其中，视觉 - 语言潜变量编码系统承担 “语义 - 动力学映射” 的核心功能，它摒弃了传统人工设计动作词汇的思路，转而通过端到端的深度学习模型，将视觉场景信息与自然语言指令，共同编码为高维潜变量空间中的特征向量。这些特征向量不仅包含任务的语义意图，更内嵌了适配机器人全身动力学特性的动作约束，从根源上解决了语义与动力学映射断裂的问题。

与之配套的分层指令跟踪执行系统，则采用 “全局任务规划 - 局部动作微调” 的两级控制逻辑。在全局层面，系统基于潜变量特征向量生成机器人全身的宏观运动轨迹；在局部层面，系统实时采集机器人关节状态、环境反馈数据，对运动轨迹进行毫秒级动态微调，确保动作执行的稳定性与精准性。这种分层架构既保障了任务执行的全局一致性，又提升了机器人对环境变化的动态适应性。

LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架

三、双模块协同执行单元：LeVERB-VL 高层策略与 LeVERB-A 底层控制

LeVERB 框架的双系统分层控制架构，由高层视觉 - 语言策略模块（LeVERB-VL，对应 System 2）与低层动力学控制模块（LeVERB-A，对应 System 1）构成，两级模块各司其职、紧密联动，实现从语义指令到动作执行的端到端精准映射。

1. LeVERB-VL：高层视觉 - 语言策略（System 2）—— 语义意图的精准编码

LeVERB-VL 模块的核心任务，是将双目相机采集的视觉场景信息与自然语言指令，转化为可驱动机器人运动的高维语义特征向量，其技术路径聚焦于潜变量建模与跨模态分布对齐两大核心环节。

残差 CVAE 潜变量建模：多模态特征的深度融合
模块采用残差条件变分自编码器（残差 CVAE）作为核心模型，输入端同步接收双目相机的视觉场景数据与自然语言控制指令，通过编码 - 解码结构生成维度为 256 的潜变量向量 z。该向量不仅精准编码指令的动作语义（如 “走向红色椅子”“弯腰拾取地面物体”），还内嵌了视觉场景中的环境约束信息。为提升视觉特征提取效率，模型引入 SigLiP 预训练视觉编码器，并结合对比学习策略，实现视觉特征与语言特征的深度对齐，确保多模态输入信息的一致性。
对抗式分布对齐：跨模态差异的有效消除
为突破模态异质性带来的泛化瓶颈，模块引入判别器 fψ 构建对抗学习机制，目标是强制视觉 - 语言联合输入生成的潜变量轨迹，与纯语言输入生成的潜变量轨迹在潜空间分布上保持一致。通过嵌入梯度反转层（GRL），模型在训练过程中反向传递模态差异梯度，逐步消除视觉与语言模态间的特征鸿沟，大幅提升框架的零样本迁移能力。

2. LeVERB-A：低层动力学控制器（System 1）—— 动态动作的稳定执行

LeVERB-A 模块作为框架的 “执行终端”，负责将 LeVERB-VL 输出的潜变量向量 z 转化为机器人关节的精准控制指令，其技术核心在于知识蒸馏训练与动态容差调节。

DAgger 蒸馏训练：教师策略知识的高效迁移
模块采用数据集聚合（DAgger）算法，从基于近端策略优化（PPO）训练的高性能教师策略中，蒸馏适配人形机器人动力学特性的动作模式。模型输入包含两部分：一是来自 LeVERB-VL 的 256 维潜变量向量 z，二是机器人本体感受传感器采集的实时数据（如关节角度、关节角速度、躯干姿态等）；输出为各关节的位置控制命令。在损失函数设计上，采用 Huber 损失替代传统均方误差损失，有效增强模型对异常值的鲁棒性，避免因传感器噪声导致的动作失控。
动态容差机制：高动态动作的精度与稳定性平衡
为应对复杂任务中的动态误差波动，模块设计了基于指数奖励函数的动态容差调整机制，奖励函数公式为 r(x)=exp(−x/σ)（其中 x 为实际动作与目标轨迹的偏差值，σ 为容差系数）。当动作偏差较小时，系统自动收紧容差系数，提升关节控制精度；当偏差超出阈值时，系统适度放宽容差，优先保障动作执行的稳定性。这一机制确保机器人在高动态任务（如快速转向、跨越障碍）中，既能精准跟踪目标轨迹，又能避免因刚性约束导致的机械损伤。

四、LeVERB-Bench：仿真 - 真实闭环验证基准

为全面验证 LeVERB 框架的性能，研究团队构建了LeVERB-Bench 仿真 - 真实闭环基准，通过标准化的数据集生成流程与场景评估体系，实现对框架泛化能力与迁移性能的量化验证。

1. 标准化数据生成 pipeline：高多样性训练数据的高效构建

人类动作捕捉数据重定向
以大规模人类动作捕捉数据集 AMASS 为基础，将人类全身运动轨迹重定向至目标人形机器人模型，通过 NVIDIA IsaacSim 仿真平台，渲染生成总时长 17.1 小时的照片级真实感（photorealistic）动作轨迹。数据集覆盖导航移动、坐姿交互、物体抓取、肢体避障等 10 大类任务，细分任务类型超过 150 种，为模型训练提供丰富的动作样本。
维度场景随机化增强

为提升模型对真实环境的适应能力，数据生成流程引入全场景随机化策略，对每个基础动作轨迹，动态调整物体材质（如木质 / 金属椅子）、环境光照强度、相机安装视角等参数，生成 100 种不同场景变体。以 “坐椅子” 任务为例，系统会随机改变椅子的颜色、高度、摆放位置，并随机添加地面障碍物，迫使模型学习任务的核心语义逻辑，而非依赖固定场景特征。
LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架
2. 基准任务分布
[td]
任务类别轨迹数总时长（秒）平均时长（秒）

视觉导航 101 465.6 4.61
目标朝向 80 372.0 4.65
坐姿交互 23 74.4 3.23
总计 154 621.7 4.04

LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架
四、实验验证：仿真到真实环境的零样本迁移效能评估
为验证 LeVERB 框架的实际性能，研究团队围绕仿真环境任务执行能力与零样本迁移泛化能力两大维度展开系统性测试，通过与传统 VLA 基线方法的对比，全面量化框架的技术优势。

1. 仿真环境性能：任务成功率与消融实验双重验证
（1）任务成功率：显著超越传统分层 VLA 方法
在 LeVERB-Bench 仿真基准的全任务测试中，LeVERB 框架展现出远超基线方法的任务执行效率。在核心的视觉导航类任务中，框架的任务成功率高达 80%；覆盖导航、坐姿交互、物体抓取等全品类任务的平均成功率达到 58.5%，相较于未做优化的 naive 分层 VLA 方法，性能提升幅度达到7.8 倍。
在典型的复杂任务场景中，这一优势更为突出。以 “绕过障碍物抵达目标点位” 任务为例，LeVERB 框架凭借潜变量编码的环境约束感知能力，避障成功率达到 75%；而传统 NVL 基线方法因缺乏有效的语义 - 动力学映射，成功率仅为 10%，二者形成鲜明对比。

（2）消融实验：关键模块的必要性验证
为明确各核心模块对框架性能的贡献，研究团队开展了针对性的消融实验，结果充分印证了潜空间对齐与潜变量采样机制的不可替代性：
- 移除对抗判别器（记为 ND 组）：视觉 - 语言模态的潜空间分布一致性被破坏，导致视觉依赖类任务的成功率直接下降至 33%，证明对抗式分布对齐机制是保障跨模态特征融合的核心前提。
- 禁用潜变量随机采样（记为 NS 组）：模型丧失了对动态环境的自适应调整能力，无法应对场景参数的微小变化，最终导致所有测试任务全部失败，验证了潜变量随机化对提升系统动态适应性的关键作用。
- LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架
2. 真实机器人部署：零样本迁移能力与泛化性能验证
为进一步验证框架的实际应用价值，研究团队基于Unitree G1 人形机器人平台开展真实环境测试，聚焦零样本迁移效果与复杂场景的泛化能力，测试任务覆盖 “坐蓝色椅子”“绕过行人” 等典型人机交互与环境导航场景。

在零样本迁移测试中，未经真实场景数据微调的 LeVERB 框架表现出优异的任务执行能力：坐姿交互任务成功率高达 90%，机器人能够精准识别目标椅子的位置与朝向，并规划出平滑的全身运动轨迹；空间定位精度显著优于传统方法，最终落座位置与目标位置的偏差小于 8cm。
典型场景下的测试更凸显框架的技术优势：当蓝色椅子处于机器人侧方视角时，LeVERB 可通过双目相机的实时视觉反馈，自主调整躯干转身角度与下肢迈步轨迹，完成流畅的侧方落座动作；而传统 VLA 方法因缺乏动态视觉 - 动力学映射能力，常出现定位偏差过大、肢体碰撞椅子等执行失败情况。

在泛化能力测试环节，研究团队从语言指令变体与视觉场景干扰两个维度展开验证，充分印证了框架语义理解与空间推理的鲁棒性：
- 语言变体适配：面对同义不同表述的指令（如 “rest on the box” 与 “take a seat on the box”），框架无需额外训练即可精准解析指令核心语义，任务执行成功率无显著下降，证明模型已突破字面表述的限制，实现对指令意图的深层理解。
- 视觉遮挡场景应对：在目标物体部分被遮挡（如椅子被纸箱遮挡一半）的场景中，框架可结合视觉残差信息与语言指令的语义约束，完成目标物体的定位与动作规划，展现出强大的空间推理能力。
- LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架
- 五、局限与未来方向1. 当前技术瓶颈
  - 长时规划能力不足：现有框架仅能预测未来数秒内的动作序列，难以胜任“穿越复杂迷宫”“长时间自主巡检”等长时程任务。核心症结在于缺乏对历史状态的记忆机制，无法基于过往动作轨迹与环境反馈进行长周期任务规划。
  - 动态物体交互鲁棒性欠佳：针对快速移动物体（如抛接球、动态避让行人）的轨迹预测误差较大，难以实现精准的交互控制。这是由于当前模型未针对动态目标的运动动力学特性进行专门建模，无法有效预判目标的运动轨迹。
  2. 未来改进路径
  - 多模态感知融合升级：计划集成触觉传感器（如GelSight高分辨率触觉传感器）与惯性测量单元（IMU）数据，构建“视觉-语言-触觉-惯性”多模态感知体系。通过融合多维度物理约束信息，提升物体抓握、柔性接触等精细操作的控制精度。
  - 生成式策略架构优化：引入扩散模型替代现有编码-解码架构，实现从自然语言指令到机器人动作序列的直接生成。该方案预计可大幅简化训练流程，将模型端到端训练时间从当前的47分钟缩短至15分钟以内，同时提升动作序列的连贯性与合理性。
  六、总结LeVERB框架创新性地提出“潜变量语义编码+动力学分层控制”的核心范式，成功打破了传统VLA模型在人形机器人全身控制中存在的语义-动力学映射断裂、仿真-真实迁移低效等关键局限。其核心突破在于将模糊的自然语言指令转化为可精准计算的潜变量约束，并通过LeVERB-VL与LeVERB-A双模块架构，实现了语义推理与动态控制的有效解耦。
  实验验证结果表明，该框架不仅在仿真环境中展现出高效的任务学习能力，更首次在真实Unitree G1人形机器人上实现了视觉-语言驱动的全身控制零样本迁移，验证了技术的可行性与实用性。LeVERB框架为具身智能技术在家庭服务机器人、工业巡检机器人、医疗辅助机器人等场景的落地应用奠定了核心技术基础，推动了人形机器人从“预编程控制”向“自然语言交互自主控制”的跨越式发展。
  传统控制方法往往陷入“数据依赖”或“环境失真”的双重困境：一类方案需要依托数千小时的真实场景示教数据完成模型训练，时间与人力成本极高；另一类方案则因过度简化仿真环境的物理参数，导致模型迁移至真实场景后出现严重的动态误差。例如，ManiFM方法在真实人形机器人上部署时，动作执行的变形

LeVERB：一种基于潜变量视觉 - 语言指令的人形机器人全身控制框架

人形机器人量产前夜，科技龙头锚定工业场景打通AI落地“最后一公里”

全球首款！云深处发布全天候人形机器人重塑行业应用！