LLM2D

摘要

arXiv:2504.21447v1 交叉类型: cross 摘要: 多模态大语言模型（MLLMs）已经在广泛的任务中取得了令人印象深刻的表现，通常使用CLIP-ViT作为其视觉编码器，因为其在文本-图像对齐方面的能力很强。尽管先前的研究表明不同的CLIP-ViT层捕捉不同类型的信息，浅层层专注于细粒度的视觉细节，而深层层与文本语义对齐更紧密，但大多数MLLMs仍然基于经验的启发式方法选择视觉特征，而不是系统分析。在这项工作中，我们提出了一种基于层级表示相似性的方法，将具有类似行为的CLIP-ViT层分成浅层、中层和深层三类，并评估其对MLLM性能的影响。在此基础上，我们重新审视了大规模MLLM中视觉层的选择问题，训练了从14亿到70亿参数的LLaVA风格模型。通过在10个数据集和4个任务上进行大量的实验，我们发现：(1) 深层层对于OCR任务是必不可少的；(2) 浅层和中层在涉及计数、定位和对象定位的推理任务中显著优于深层层；(3) 跨浅层、中层和深层的轻量化特征融合始终优于专业化融合基线和单层选择，在9个数据集中实现了性能提升。我们的工作提供了第一个关于MLLM中视觉层选择的有原则的研究，为更深入地探究MLLM中的视觉表示学习奠定了基础。