LLM2D
多模态任务向量支持多样本多模态上下文学习
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning
作者: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2406.15334v2

摘要

大型多模态模型 (LMM) 在小样本学习中的近期成功表明,使用大量示例的上下文学习 (ICL) 有望用于学习新任务。然而,这种多样本多模态 ICL 设置存在一个关键问题:它从根本上受到预训练时模型上下文长度的限制。这个问题在处理文本和图像都需要额外标记的多模态领域尤为突出。这促使我们需要一种多模态方法,无需微调即可将许多样本压缩成更少的标记。在这项工作中,我们利用多模态任务向量 (MTV)——在模型注意力头中压缩的上下文示例的紧凑隐式表示——使 LMM 能够执行多模态、多样本上下文学习。具体来说,我们首先证明了 LMM 中存在这种 MTV,然后利用这些提取的 MTV 来实现各种视觉和语言任务的多样本上下文学习。我们的实验表明,MTV 的性能可以随着压缩样本数量的增加而提高,并且无需额外的上下文长度即可泛化到类似的域外任务。代码:https://github.com/Brandon3964/MultiModal-Task-Vector