LLM2D

摘要

arXiv:2501.18867v1 交叉公告类型摘要：近期在视觉-语言-动作（VLA）模型方面的进展利用了预训练的视觉-语言模型（VLMs）来提高泛化能力。VLMs 通常是在视觉-语言理解任务上进行预训练的，可以提供丰富的语义知识和推理能力。然而，先前的研究表明，VLMs 往往注重高层次的语义内容而忽视低层次特征，这限制了它们捕捉详细的空间信息和理解物理动态的能力。这些方面对于体现控制任务至关重要，在现有的预训练范式中仍鲜有探索。在本文中，我们研究了 VLA 的训练范式，并提出了一个统一的 VLA 模型训练方法，即 **UP-VLA**，该方法结合了多模态 **U**nderstanding 和未来 **P**rediction 目标，以增强高层次语义理解和低层次空间理解。实验结果表明，UP-VLA 在 Calvin ABC-D 基准上比之前的方法提高了 33% 的性能。此外，UP-VLA 在需要精确空间信息的现实世界操作任务中展现出更好的成功率。