摘要
arXiv:2504.08851v1 交叉类型: cross
摘要: 最近,在大型多模态模型(LMMs)中,上下文内学习(ICL)已成为一个重要的推理范式,利用少量的上下文内示范(ICDs)来促使LMMs执行新任务。然而,多模态数据中的协同效应增加了ICL性能对ICDs配置的敏感性,刺激了对一种更稳定和普适的映射函数的需求。从数学上来说,在基于变换器的模型中,ICDs充当添加到查询标记的隐藏状态中的“移位向量”。受到这一想法的启发,我们引入了模拟上下文学习(MimIC),以从ICDs中学习稳定的和可泛化的移位效果。具体而言,与一些基于移位向量的方法相比,MimIC通过将轻量级可学习模块整合到LMMs中,并通过四项关键增强来更严格地逼近移位效果:1) 在注意力层之后插入移位向量,2) 为每个注意力头分配一个移位向量,3) 让移位幅度依赖于查询,4) 使用逐层对齐损失。在两种LMMs(Idefics-9b和Idefics2-8b-base)上的三个多模态任务(VQAv2、OK-VQA、Captioning)的广泛实验表明,MimIC优于现有的基于移位向量的方法。源代码可在https://github.com/Kamichanw/MimIC获取。