摘要
arXiv:2502.05485v4 通告类型: replace-cross
摘要:大型基础模型在视觉和语言方面对复杂问题展现了强大的开放世界泛化能力,但在机器人领域尚未达到类似的泛化水平。一个基本挑战在于缺乏机器人数据,这些数据通常通过昂贵的机器人操作获得。一种有前景的解决方案是利用更便宜的、跨域的数据,比如无动作视频、手工绘制的草图或仿真数据。在本文中,我们认为分层的视觉-语言-动作(VLA)模型比直接微调视觉-语言模型(VLMs)以预测动作的标准单模块VLA模型更能有效地利用跨域数据。特别是,我们研究了一类分层的VLA模型,其中高层的VLM被微调以生成一个粗略的2D路径,指示给定RGB图像和任务描述所需的机器人末端执行器轨迹。中间的2D路径预测则作为指导传递给低层的、对3D信息敏感的控制策略,该策略能够进行精确操作。这样可以减轻高层VLM对精细动作预测的负担,同时减少低层策略在复杂任务层面推理方面的负担。我们展示了通过分层设计,高层VLM能够在显著的跨域差距之间进行转移,包括 embodiment、dynamics、视觉外观和任务语义等方面的差异。在真实机器人实验中,我们观察到与OpenVLA相比,在七个不同泛化轴上的成功率平均提高了20%,相当于相对提高了50%。提供了视觉结果、代码和数据集:https://hamster-robot.github.io/