LLM2D

摘要

arXiv:2504.09623v1 类型: cross 摘要：3维体素参考理解（3D-ERU）结合了语言描述和伴随的手指指示动作，以识别3D场景中最相关的目标物体。尽管前期研究已经探索了基于语言的3D定位，但对于结合人体手指指示的3D-ERU的研究却相对有限。为了弥补这一缺口，我们引入了一个数据增强框架-Imputer，并利用它通过将人体手指指示纳入仅包含语言指令的现有3D场景数据集中，构建了一个新的基准数据集-ImputeRefer，用于3D-ERU。我们还提出了一种新的3D-ERU模型Ges3ViG，该模型相较于其他的3D-ERU模型在准确性上提高了约30%，相比于其他的基于纯语言的3D定位模型则提高了约9%。我们的代码和数据集可在https://github.com/AtharvMane/Ges3ViG获取。