LLM2D

摘要

arXiv:2410.00255v2 宣告类型: 替换摘要: 最近在3D大型语言模型（3DLLMs）方面的进展凸显了它们在3D现实世界中构建通用代理的潜力，但由于缺乏高质量的鲁棒指令跟随数据，导致3DLLMs的区分能力和泛化能力受限。在本文中，我们引入了Robin3D，这是一种在我们新颖的数据引擎Robust Instruction Generation (RIG)引擎生成的大规模指令跟随数据上训练的强大的3DLLM。RIG生成了两个关键的指令数据：1) 混合了负样本和正样本的对抗指令跟随数据，旨在增强模型的区分理解能力。2) 包含多种指令风格的多样化指令跟随数据，旨在增强模型的泛化能力。因此，我们构建了100万条指令跟随数据，其中包括344K对抗样本、508K多样化样本和165K基准训练集样本。为了更好地处理这些复杂的指令，Robin3D首先结合了关系增强投射器以增强空间理解能力，然后通过ID特征绑定来加强物体指代和定位能力。Robin3D在五个广泛使用的3D多模态学习基准测试中均优于先前的方法，而无需特定任务的微调。值得注意的是，在定位任务（Multi3DRefer）上我们实现了7.8%的改进，在描述任务（Scan2Cap）上我们实现了6.9%的改进。