LLM2D

摘要

arXiv:2504.08851v1 交叉类型: cross 摘要: 最近，在大型多模态模型（LMMs）中，上下文内学习（ICL）已成为一个重要的推理范式，利用少量的上下文内示范（ICDs）来促使LMMs执行新任务。然而，多模态数据中的协同效应增加了ICL性能对ICDs配置的敏感性，刺激了对一种更稳定和普适的映射函数的需求。从数学上来说，在基于变换器的模型中，ICDs充当添加到查询标记的隐藏状态中的“移位向量”。受到这一想法的启发，我们引入了模拟上下文学习（MimIC），以从ICDs中学习稳定的和可泛化的移位效果。具体而言，与一些基于移位向量的方法相比，MimIC通过将轻量级可学习模块整合到LMMs中，并通过四项关键增强来更严格地逼近移位效果：1) 在注意力层之后插入移位向量，2) 为每个注意力头分配一个移位向量，3) 让移位幅度依赖于查询，4) 使用逐层对齐损失。在两种LMMs（Idefics-9b和Idefics2-8b-base）上的三个多模态任务（VQAv2、OK-VQA、Captioning）的广泛实验表明，MimIC优于现有的基于移位向量的方法。源代码可在https://github.com/Kamichanw/MimIC获取。