LLM2D
向上-VLA:统一的嵌入式代理理解与预测模型
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent
作者: Jianke Zhang, Yanjiang Guo, Yucheng Hu, Xiaoyu Chen, Xiang Zhu, Jianyu Chen
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18867v1

摘要

arXiv:2501.18867v1 交叉公告类型 摘要:近期在视觉-语言-动作(VLA)模型方面的进展利用了预训练的视觉-语言模型(VLMs)来提高泛化能力。VLMs 通常是在视觉-语言理解任务上进行预训练的,可以提供丰富的语义知识和推理能力。然而,先前的研究表明,VLMs 往往注重高层次的语义内容而忽视低层次特征,这限制了它们捕捉详细的空间信息和理解物理动态的能力。这些方面对于体现控制任务至关重要,在现有的预训练范式中仍鲜有探索。在本文中,我们研究了 VLA 的训练范式,并提出了一个统一的 VLA 模型训练方法,即 **UP-VLA**,该方法结合了多模态 **U**nderstanding 和未来 **P**rediction 目标,以增强高层次语义理解和低层次空间理解。实验结果表明,UP-VLA 在 Calvin ABC-D 基准上比之前的方法提高了 33% 的性能。此外,UP-VLA 在需要精确空间信息的现实世界操作任务中展现出更好的成功率。