LLM2D

摘要

arXiv:2502.09620v1 声明类型: cross 摘要：编码器无.DrawLine的架构在2D视觉领域已有初步探索，但在3D理解场景中的有效应用仍是一个未解之谜。在本文中，我们首次全面探讨了编码器无绘制的3D大型多模态模型（LMMs）克服基于编码器的3D LMMs面临的挑战的潜力。这些挑战包括无法适应变化的点云分辨率和编码器提取的点特征无法满足大型语言模型（LLMs）的语义需求。我们确定了移除编码器并使LLM承担3D编码角色的关键方面：1）我们提出了预训练阶段的LLM嵌入语义编码策略，探索各种点云自我监督损失的效果，并提出了混合语义损失以提取高级语义；2）我们在指令调优阶段引入了层次几何聚合策略。这将归纳偏置集成到LLM的早期层中，以专注于点云的局部细节。最终，我们提出了第一个编码器无3D LMM——ENEL。我们7B模型与当前最先进的模型ShapeLLM-13B相媲美，在分类、描述和VQA任务中分别取得了55.0%、50.92%和42.7%的结果。我们的结果表明，编码器无架构在3D理解领域取代基于编码器的架构具有高度的前景。代码已发布在 https://github.com/Ivan-Tang-3D/ENEL