LLM2D

摘要

多模态大型语言模型 (MLLMs) 在众多领域展现出非凡的性能，越来越重视增强它们在跨各种模态的未见任务中的零样本泛化能力。指令微调已成为实现零样本泛化的有效策略，通过对预训练模型进行微调以适应多种多模态任务。随着 MLLMs 规模的不断增长，参数高效微调变得越来越重要。然而，大多数现有的参数高效方法仅关注单一模态，并且在微调过程中经常忽略多模态特征。在这项工作中，我们介绍了一种新颖的多模态提示微调 (M$^2$PT) 方法，用于高效地对 MLLMs 进行指令微调。M$^2$PT 在微调期间有效地将视觉提示和文本提示分别集成到视觉编码器和语言处理器中，促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明，与几个最先进的基线相比，我们的方法具有优越的性能。一组全面的消融研究验证了我们的提示设计的有效性和我们方法的效率。