LLM2D
模仿上下文学习以应对多模态任务
Mimic In-Context Learning for Multimodal Tasks
作者: Yuchu Jiang, Jiale Fu, Chenduo Hao, Xinting Hu, Yingzhe Peng, Xin Geng, Xu Yang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08851v1

摘要

arXiv:2504.08851v1 交叉类型: cross 摘要: 最近,在大型多模态模型(LMMs)中,上下文内学习(ICL)已成为一个重要的推理范式,利用少量的上下文内示范(ICDs)来促使LMMs执行新任务。然而,多模态数据中的协同效应增加了ICL性能对ICDs配置的敏感性,刺激了对一种更稳定和普适的映射函数的需求。从数学上来说,在基于变换器的模型中,ICDs充当添加到查询标记的隐藏状态中的“移位向量”。受到这一想法的启发,我们引入了模拟上下文学习(MimIC),以从ICDs中学习稳定的和可泛化的移位效果。具体而言,与一些基于移位向量的方法相比,MimIC通过将轻量级可学习模块整合到LMMs中,并通过四项关键增强来更严格地逼近移位效果:1) 在注意力层之后插入移位向量,2) 为每个注意力头分配一个移位向量,3) 让移位幅度依赖于查询,4) 使用逐层对齐损失。在两种LMMs(Idefics-9b和Idefics2-8b-base)上的三个多模态任务(VQAv2、OK-VQA、Captioning)的广泛实验表明,MimIC优于现有的基于移位向量的方法。源代码可在https://github.com/Kamichanw/MimIC获取。