LLM2D

摘要

arXiv:2504.04744v1 定位类型: 交叉摘要：将3D物体功能进行地定位是一种任务，它将物体在3D空间中的位置确定下来，使物体能够被操作，从而连接感知与行动，为体现智能奠定了基础。例如，对于智能机器人而言，准确地根据人类指示定位物体的功能并对其进行抓取是必要的。在本文中，我们提出了一项基于语言指令、视觉观察和交互的新任务，该任务受到认知科学的启发。我们收集了一个包含点、图像和语言指令的物体功能定位数据集(AGPIL)，以支持提出的任务。在3D物理世界中，由于观察角度、物体旋转或空间遮挡等原因，我们只能获得物体的局部观察。因此，该数据集包括全方位视角、局部视角和旋转视角下的物体功能估计。为了完成此任务，我们提出了LMAffordance3D，这是第一个多模态、语言引导的3D功能定位网络，它使用视觉-语言模型将2D和3D空间特征与语义特征融合。在AGPIL上进行全面的实验表明，我们的方法在该任务中的有效性和优越性，即使是在未见过的实验设置中。我们的项目可访问 https://sites.google.com/view/lmaffordance3d。