LLM2D

摘要

arXiv:2502.05485v1 交叉类型公告摘要：大的基础模型已在视觉和语言方面展示了强健的开放世界泛化能力，解决了复杂的视觉和语言问题，但在机器人领域尚未实现类似的泛化水平。一个根本性的挑战在于缺乏机器人数据，这些数据通常通过昂贵的在机器人上的操作获得。一种有希望的解决方案是利用更便宜的离域数据，如动作无关的视频、手绘草图或模拟数据。在本文中，我们提出，分层视觉-语言-动作（VLA）模型比直接微调视觉-语言模型（VLMs）来预测动作的标准单一模型更有效地利用离域数据。特别是，我们研究了一类分层VLA模型，其中高层的VLM微调以产生指示给定RGB图像和任务描述时所需机器人末端执行器轨迹的粗略2D路径。中层的2D路径预测则作为指导，供低层、具备3D意识的控制策略使用，该策略能够进行精确的操作。这样做可以减轻高层VLM的精细动作预测负担，同时减少低层政策在复杂的任务层面推理方面的负担。我们展示了，通过分层设计，高层的VLM可以在显著的离域数据与实际机器人测试场景之间的域差距内进行学习传输，包括不同体态、动力学、视觉外观和任务语义等方面的差异。在实际机器人实验中，我们观察到在七个不同泛化轴上相对于OpenVLA的成功率平均提高了20%，这相当于相对提高了50%。视觉结果见：https://hamster-robot.github.io