LLM2D

摘要

近年来，3D 大型语言模型 (3DLLMs) 的发展突显了其在构建 3D 现实世界中通用代理的潜力，但由于缺乏高质量的鲁棒指令遵循数据，导致 3DLLMs 的判别能力和泛化能力有限，因此仍面临挑战。本文介绍了 Robin3D，这是一个强大的 3DLLM，它是在我们新颖的数据引擎鲁棒指令生成 (RIG) 引擎生成的大规模指令遵循数据上训练的。RIG 生成两种关键的指令数据：1) 对抗指令遵循数据，它包含混合的负样本和正样本，以增强模型的判别理解。2) 多样化指令遵循数据，它包含各种指令风格，以增强模型的泛化能力。因此，我们构建了 100 万条指令遵循数据，包含 344K 个对抗样本、508K 个多样化样本和 165K 个基准训练集样本。为了更好地处理这些复杂的指令，Robin3D 首先引入了关系增强投影器来增强空间理解，然后通过 ID-特征绑定来增强对象引用和定位能力。Robin3D 在五个广泛使用的 3D 多模态学习基准上始终优于以前的方法，无需进行特定于任务的微调。值得注意的是，我们在定位任务 (Multi3DRefer) 上取得了 7.8% 的改进，在字幕任务 (Scan2Cap) 上取得了 6.9% 的改进。