LLM2D
重思多模态LLMs中的视觉层选择
Rethinking Visual Layer Selection in Multimodal LLMs
作者: Haoran Chen, Junyan Lin, Xinhao Chen, Yue Fan, Xin Jin, Hui Su, Jianfeng Dong, Jinlan Fu, Xiaoyu Shen
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21447v1

摘要

arXiv:2504.21447v1 交叉类型: cross 摘要: 多模态大语言模型(MLLMs)已经在广泛的任务中取得了令人印象深刻的表现,通常使用CLIP-ViT作为其视觉编码器,因为其在文本-图像对齐方面的能力很强。尽管先前的研究表明不同的CLIP-ViT层捕捉不同类型的信息,浅层层专注于细粒度的视觉细节,而深层层与文本语义对齐更紧密,但大多数MLLMs仍然基于经验的启发式方法选择视觉特征,而不是系统分析。在这项工作中,我们提出了一种基于层级表示相似性的方法,将具有类似行为的CLIP-ViT层分成浅层、中层和深层三类,并评估其对MLLM性能的影响。在此基础上,我们重新审视了大规模MLLM中视觉层的选择问题,训练了从14亿到70亿参数的LLaVA风格模型。通过在10个数据集和4个任务上进行大量的实验,我们发现:(1) 深层层对于OCR任务是必不可少的;(2) 浅层和中层在涉及计数、定位和对象定位的推理任务中显著优于深层层;(3) 跨浅层、中层和深层的轻量化特征融合始终优于专业化融合基线和单层选择,在9个数据集中实现了性能提升。我们的工作提供了第一个关于MLLM中视觉层选择的有原则的研究,为更深入地探究MLLM中的视觉表示学习奠定了基础。