LLM2D
Robin3D:通过鲁棒指令微调改进三维大型语言模型
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
作者: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00255v1

摘要

近年来,3D 大型语言模型 (3DLLMs) 的发展突显了其在构建 3D 现实世界中通用代理的潜力,但由于缺乏高质量的鲁棒指令遵循数据,导致 3DLLMs 的判别能力和泛化能力有限,因此仍面临挑战。本文介绍了 Robin3D,这是一个强大的 3DLLM,它是在我们新颖的数据引擎鲁棒指令生成 (RIG) 引擎生成的大规模指令遵循数据上训练的。RIG 生成两种关键的指令数据:1) 对抗指令遵循数据,它包含混合的负样本和正样本,以增强模型的判别理解。2) 多样化指令遵循数据,它包含各种指令风格,以增强模型的泛化能力。因此,我们构建了 100 万条指令遵循数据,包含 344K 个对抗样本、508K 个多样化样本和 165K 个基准训练集样本。为了更好地处理这些复杂的指令,Robin3D 首先引入了关系增强投影器来增强空间理解,然后通过 ID-特征绑定来增强对象引用和定位能力。Robin3D 在五个广泛使用的 3D 多模态学习基准上始终优于以前的方法,无需进行特定于任务的微调。值得注意的是,我们在定位任务 (Multi3DRefer) 上取得了 7.8% 的改进,在字幕任务 (Scan2Cap) 上取得了 6.9% 的改进。