LLM2D
SoFar: 语言引导的空间定向连接空间推理与对象操作
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
作者: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.13143v1

摘要

arXiv:2502.13143v1 宣布类型: cross 摘要:空间智能是体感AI的关键组成部分,促使机器人理解并与其环境互动。虽然最近的进步增强了视觉语言模型(VLMs)感知物体位置和位置关系的能力,但它们仍然缺乏精确理解物体方位的能力——这对于涉及精细操作的任务来说是关键要求。解决这一限制不仅需要几何推理,还需要一种表达和直观的方式来表示方位。在此背景下,我们认为自然语言提供了比标准框架更灵活的表示空间,使之特别适合指令跟随的机器人系统。在本文中,我们引入了语义方位的概念,这种概念以一种参考框架无关的方式使用自然语言定义物体方位(例如,USB的“插孔”方向或刀具的“把手”方向)。为了支持这一点,我们构建了OrienText300K数据集,这是一个大规模数据集,包含3D模型,并标注有语义方位,将几何理解与功能性语义联系起来。通过将语义方位整合到视觉语言模型系统中,我们使机器人能够生成同时具有位置和方位约束的抓取动作。在仿真和现实世界中的广泛实验表明,我们的方法显著增强了机器人的操作能力,例如,在Open6DOR上的准确性为48.7%,在SIMPLER上的准确性为74.9%。