LLM2D

摘要

多模态大型语言模型 (MLLMs) 在广泛的领域展现出卓越的性能，越来越重视增强其在跨各种模态的未见任务中的零样本泛化能力。指令微调已成为一种有效的策略，通过对预训练模型进行微调以实现零样本泛化，使其能够处理各种多模态任务。随着 MLLMs 规模的不断增长，参数高效微调变得越来越重要。然而，大多数现有的参数高效方法只关注单一模态，并且在微调过程中往往忽略了多模态特征。在这项工作中，我们提出了一种新颖的多模态提示微调 (MMPT) 方法，用于高效地对 MLLMs 进行指令微调。MMPT 在微调过程中有效地将视觉提示和文本提示分别整合到视觉编码器和语言处理器中，促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明，我们的方法与几个最先进的基线相比具有优越的性能。一组全面的消融研究验证了我们提示设计的有效性和我们方法的效率。