摘要
大型多模态模型 (LMM) 在小样本学习中的近期成功表明,使用大量示例的上下文学习 (ICL) 有望用于学习新任务。然而,这种多样本多模态 ICL 设置存在一个关键问题:它从根本上受到预训练时模型上下文长度的限制。这个问题在处理文本和图像都需要额外标记的多模态领域尤为突出。这促使我们需要一种多模态方法,无需微调即可将许多样本压缩成更少的标记。在这项工作中,我们利用多模态任务向量 (MTV)——在模型注意力头中压缩的上下文示例的紧凑隐式表示——使 LMM 能够执行多模态、多样本上下文学习。具体来说,我们首先证明了 LMM 中存在这种 MTV,然后利用这些提取的 MTV 来实现各种视觉和语言任务的多样本上下文学习。我们的实验表明,MTV 的性能可以随着压缩样本数量的增加而提高,并且无需额外的上下文长度即可泛化到类似的域外任务。代码:https://github.com/Brandon3964/MultiModal-Task-Vector