LLM2D
UP-VLA:统一的体格智能理解和预测模型
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent
作者: Jianke Zhang, Yanjiang Guo, Yucheng Hu, Xiaoyu Chen, Xiang Zhu, Jianyu Chen
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18867v2

摘要

arXiv:2501.18867v2 通告类型: 交叉 摘要: 最近在视觉-语言-行动(VLA)模型领域的进展利用了预训练的视觉-语言模型(VLMs)来提高泛化能力。VLMs通常是在视觉-语言理解任务上预先训练的,提供了丰富的语义知识和推理能力。然而,先前的研究表明,VLMs经常侧重于高层语义内容,而忽视低级特征,限制了它们捕捉详细空间信息和理解物理动态的能力。这些对于体现控制任务至关重要的方面,在现有的预训练范式中尚未得到充分探索。在本文中,我们研究了VLA的训练范式,并引入了**UP-VLA**,这是一种**统一**的VLA模型训练方法,结合了多模态**理解**和未来**预测**目标,同时增强了高层语义理解和低级空间理解。实验结果表明,UP-VLA在Calvin ABC-D基准上相较于之前的最佳方法实现了33%的改进。此外,UP-VLA在实际的操控任务中表现出了更高的成功率,特别是那些需要精确空间信息的任务。