摘要
arXiv:2502.05485v3 宣布类型: replace-cross
摘要:大规模基础模型在视觉和语言方面已经展示了强大的开放世界泛化能力,面对复杂的视觉和语言问题,但在机器人领域尚未实现类似的泛化水平。一个根本性的挑战是没有足够的机器人数据,这些数据通常通过昂贵的在机器人操作中获得。一种有希望的解决方案是利用较便宜的、域外数据,如无动作的视频、手工绘制的草图或模拟数据。在本文中,我们认为分层的视觉-语言-动作(VLA)模型比直接微调视觉-语言模型(VLMs)来预测动作的标准单一VLA模型更能有效利用域外数据。特别是,我们研究了一类分层VLA模型,其中高层VLM被微调以生成一个粗略的2D路径,该路径在给定RGB图像和任务描述的情况下指示所需机器人末端执行器的轨迹。然后,中间层级的2D路径预测作为指导提供给3D感知的控制策略,该策略能够进行精确的操作。这样做减轻了高层VLM对细粒度动作预测的负担,同时减少了低层策略在复杂的任务级推理方面的负担。我们展示,在分层设计下,高层VLM可以在广泛的离域微调数据和实际机器人测试场景之间的显著领域差距上传输,包括在实体、动力学、视觉外观和任务语义等方面的差异。在实际机器人实验中,我们观察到在七个不同泛化轴上相对于OpenVLA的成功率平均提高了20%,相当于50%的相对增益。视觉结果可以在以下链接提供:https://hamster-robot.github.io