摘要
arXiv:2408.12902v2 公告类型:替换
摘要:在多模态大型语言模型(MLLMs)领域,常见的方法通常是在训练过程中解冻语言模型以促进深入的视觉理解。然而,使用视觉-语言数据对这些模型进行微调往往会削弱它们的自然语言处理(NLP)能力。为了避免这种性能下降,一个简单的解决方案是在开发多模态能力的同时冻结语言模型。不幸的是,之前的 works 并未获得满意的结果。基于冻结语言模型的策略,我们进行了彻底的结构探索,并引入了内适配器架构(IAA)。具体而言,该架构在大型语言模型内部嵌入了多个不同深度的多模态适配器,以直接与本质上以文本为中心的变压器层进行交互,从而使冻结的语言模型能够获得多模态能力。与之前需要大规模对齐数据来冻结语言模型的方法不同,我们提出的架构能够在小规模数据集上实现更优的表现。我们进行了广泛的实验,以提高MLLM的通用多模态能力和视觉定位能力。我们的方法在各种视觉-语言基准测试中显著优于之前的领先方法,而不会牺牲NLP任务的性能。代码和模型可在 https://github.com/360CVGroup/Inner-Adaptor-Architecture 获取。