LLM2D
Robin3D:通过稳健的指令调优改进3D大型语言模型
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
作者: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2410.00255v2

摘要

arXiv:2410.00255v2 宣告类型: 替换 摘要: 最近在3D大型语言模型(3DLLMs)方面的进展凸显了它们在3D现实世界中构建通用代理的潜力,但由于缺乏高质量的鲁棒指令跟随数据,导致3DLLMs的区分能力和泛化能力受限。在本文中,我们引入了Robin3D,这是一种在我们新颖的数据引擎Robust Instruction Generation (RIG)引擎生成的大规模指令跟随数据上训练的强大的3DLLM。RIG生成了两个关键的指令数据:1) 混合了负样本和正样本的对抗指令跟随数据,旨在增强模型的区分理解能力。2) 包含多种指令风格的多样化指令跟随数据,旨在增强模型的泛化能力。因此,我们构建了100万条指令跟随数据,其中包括344K对抗样本、508K多样化样本和165K基准训练集样本。为了更好地处理这些复杂的指令,Robin3D首先结合了关系增强投射器以增强空间理解能力,然后通过ID特征绑定来加强物体指代和定位能力。Robin3D在五个广泛使用的3D多模态学习基准测试中均优于先前的方法,而无需特定任务的微调。值得注意的是,在定位任务(Multi3DRefer)上我们实现了7.8%的改进,在描述任务(Scan2Cap)上我们实现了6.9%的改进。