LLM2D
Ges3ViG:将指针手势融入基于语言的3D视觉定位以理解和应用实体参考
Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding
作者: Atharv Mahesh Mane, Dulanga Weerakoon, Vigneshwaran Subbaraju, Sougata Sen, Sanjay E. Sarma, Archan Misra
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09623v1

摘要

arXiv:2504.09623v1 类型: cross 摘要:3维体素参考理解(3D-ERU)结合了语言描述和伴随的手指指示动作,以识别3D场景中最相关的目标物体。尽管前期研究已经探索了基于语言的3D定位,但对于结合人体手指指示的3D-ERU的研究却相对有限。为了弥补这一缺口,我们引入了一个数据增强框架-Imputer,并利用它通过将人体手指指示纳入仅包含语言指令的现有3D场景数据集中,构建了一个新的基准数据集-ImputeRefer,用于3D-ERU。我们还提出了一种新的3D-ERU模型Ges3ViG,该模型相较于其他的3D-ERU模型在准确性上提高了约30%,相比于其他的基于纯语言的3D定位模型则提高了约9%。我们的代码和数据集可在https://github.com/AtharvMane/Ges3ViG获取。