摘要
多模态大型语言模型(MLLMs)在广泛的领域展现出卓越的性能,并且越来越重视增强其在各种模态下对未见任务的零样本泛化能力。指令微调已成为一种有效的策略,通过对预训练模型进行多模态任务的微调来实现零样本泛化。随着 MLLMs 规模的不断扩大,参数高效的微调变得越来越重要。然而,大多数现有的参数高效方法只关注单一模态,并且在微调过程中往往忽略了多模态特征。在这项工作中,我们提出了一种新颖的多模态提示微调 (M$^2$PT) 方法,用于高效地对 MLLMs 进行指令微调。M$^2$PT 在微调过程中有效地将视觉提示和文本提示分别集成到视觉编码器和语言处理器中,从而促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明,与几种最先进的基线相比,我们的方法具有更优越的性能。一组全面的消融研究验证了我们的提示设计和方法的效率。