摘要
arXiv:2410.00255v2 宣告类型: 替换
摘要: 最近在3D大型语言模型(3DLLMs)方面的进展凸显了它们在3D现实世界中构建通用代理的潜力,但由于缺乏高质量的鲁棒指令跟随数据,导致3DLLMs的区分能力和泛化能力受限。在本文中,我们引入了Robin3D,这是一种在我们新颖的数据引擎Robust Instruction Generation (RIG)引擎生成的大规模指令跟随数据上训练的强大的3DLLM。RIG生成了两个关键的指令数据:1) 混合了负样本和正样本的对抗指令跟随数据,旨在增强模型的区分理解能力。2) 包含多种指令风格的多样化指令跟随数据,旨在增强模型的泛化能力。因此,我们构建了100万条指令跟随数据,其中包括344K对抗样本、508K多样化样本和165K基准训练集样本。为了更好地处理这些复杂的指令,Robin3D首先结合了关系增强投射器以增强空间理解能力,然后通过ID特征绑定来加强物体指代和定位能力。Robin3D在五个广泛使用的3D多模态学习基准测试中均优于先前的方法,而无需特定任务的微调。值得注意的是,在定位任务(Multi3DRefer)上我们实现了7.8%的改进,在描述任务(Scan2Cap)上我们实现了6.9%的改进。