LLM2D
基于语言指令、视觉观察和交互的3D物体功能 grounding
Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions
作者: He Zhu, Quyu Kong, Kechun Xu, Xunlong Xia, Bing Deng, Jieping Ye, Rong Xiong, Yue Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04744v1

摘要

arXiv:2504.04744v1 定位类型: 交叉 摘要:将3D物体功能进行地定位是一种任务,它将物体在3D空间中的位置确定下来,使物体能够被操作,从而连接感知与行动,为体现智能奠定了基础。例如,对于智能机器人而言,准确地根据人类指示定位物体的功能并对其进行抓取是必要的。在本文中,我们提出了一项基于语言指令、视觉观察和交互的新任务,该任务受到认知科学的启发。我们收集了一个包含点、图像和语言指令的物体功能定位数据集(AGPIL),以支持提出的任务。在3D物理世界中,由于观察角度、物体旋转或空间遮挡等原因,我们只能获得物体的局部观察。因此,该数据集包括全方位视角、局部视角和旋转视角下的物体功能估计。为了完成此任务,我们提出了LMAffordance3D,这是第一个多模态、语言引导的3D功能定位网络,它使用视觉-语言模型将2D和3D空间特征与语义特征融合。在AGPIL上进行全面的实验表明,我们的方法在该任务中的有效性和优越性,即使是在未见过的实验设置中。我们的项目可访问 https://sites.google.com/view/lmaffordance3d。