LLM2D

摘要

arXiv:2502.05485v2 宣告类型: replace-cross 摘要：大型基础模型在视觉和语言方面对复杂问题展示了强大的开放世界泛化能力，但在机器人领域尚未实现类似的泛化水平。一个基本挑战是没有足够的机器人数据，这些数据通常通过昂贵的在机器人上操作获得。一种有前景的解决方法是利用更便宜的跨域数据，如无动作的视频、手绘草图或仿真数据。在本文中，我们提出分层视觉-语言-动作（VLA）模型在利用跨域数据方面比直接微调视觉-语言模型（VLMs）来预测动作的标准单一型VLA模型更有效。特别是在这个研究中，我们探讨了一类分层VLA模型，其中高层次的VLM被微调以生成一个粗略的2D路径，该路径表示给定RGB图像和任务描述的所需机器人末端执行器轨迹。然后，中间的2D路径预测作为指导传递给低层次、3D感知的控制策略，该策略能够进行精确操作。这样做减轻了高层次VLM在细粒度动作预测方面的负担，同时减少了低层次策略对复杂任务级推理的负担。我们表明，通过分层设计，高层次VLM可以在显著的跨域差距之间进行迁移，包括在体现、动力学、视觉外观和任务语义等方面的差异。在实地机器人的实验中，我们观察到在七个不同泛化轴上，与OpenVLA相比，成功率平均提高了20%，相对改进达到50%。视觉结果可在以下网址查看：https://hamster-robot.github.io