LLM2D

摘要

arXiv:2501.18867v2 通告类型: 交叉摘要: 最近在视觉-语言-行动(VLA)模型领域的进展利用了预训练的视觉-语言模型(VLMs)来提高泛化能力。VLMs通常是在视觉-语言理解任务上预先训练的，提供了丰富的语义知识和推理能力。然而，先前的研究表明，VLMs经常侧重于高层语义内容，而忽视低级特征，限制了它们捕捉详细空间信息和理解物理动态的能力。这些对于体现控制任务至关重要的方面，在现有的预训练范式中尚未得到充分探索。在本文中，我们研究了VLA的训练范式，并引入了**UP-VLA**，这是一种**统一**的VLA模型训练方法，结合了多模态**理解**和未来**预测**目标，同时增强了高层语义理解和低级空间理解。实验结果表明，UP-VLA在Calvin ABC-D基准上相较于之前的最佳方法实现了33%的改进。此外，UP-VLA在实际的操控任务中表现出了更高的成功率，特别是那些需要精确空间信息的任务。