LLM2D
SpatialVLA:探索视觉语言行动模型的时空表示
SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
作者: Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.15830v3

摘要

arXiv:2501.15830v3 Announce Type: replace-cross 摘要:在本文中,我们认为空间理解是机器人操作的关键,并提出SpatialVLA来探索适用于机器人基础模型的有效空间表示。具体而言,我们引入了Ego3D位置编码,将其3D信息注入视觉-语言-动作模型的输入观察中,并提出了自适应动作网格,以自适应离散的动作网格表示空间机器人动作,从而促进跨越不同机器人环境和任务的学习和迁移的空间动作知识。SpatialVLA首先基于拥有110万个真实世界机器人演示的视觉语言模型进行预训练,以学习适用于多个机器人环境和任务的一般性操作策略。在预训练后,SpatialVLA可以直接应用于以零样本的方式执行大量任务。在仿真和实际机器人中的优越结果证明了其推断复杂机器人运动轨迹的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为预训练的SpatialVLA模型提供了新的有效方式,以适应新的仿真和实际机器人设置,其中预学的动作网格重新离散化以捕获新设置中的机器人特定空间动作移动。广泛的评估结果表明了其在分布内泛化和分布外适应能力的卓越表现,突出了所提出的空间感知表示对通用机器人策略学习的关键益处。所有细节和代码将开源。