摘要
arXiv:2503.04839v2 交叉替换通知类型:
摘要:跨模态上下文学习(ICL)已成为大型视觉语言模型(LVLMs)的关键能力,这得益于其不断增加的规模和适用性。尽管具有很大的潜力,但多模态环境中的有效ICL仍然具有挑战性,原因在于图像-文本输入的固有复杂性和ICL性能对输入配置的高敏感性。在这项工作中,我们揭示了多模态ICL背后的核心机制,确定了任务映射是配置稳健的上下文学习演示(ICD)序列的关键因素。基于这些见解,我们提出了一个轻量级但功能强大的仅解码器变压器SabER,该变压器配备了任务感知注意机制,可以智能地选择和排列示例库中的ICD,在自回归方式下进行安排。这种设计使细粒度特征提取和跨模态推理成为可能,并逐步精化任务映射以生成高质量的ICD序列。通过涵盖五个大型视觉语言模型和九个基准数据集的广泛实验,SabER不仅展示了强大的实证性能,还进一步揭示了任务语义如何与多模态ICD相互作用。我们的发现突显了概念上恰当的ICD序列配置的重要性,并为在各种实际场景中增强多模态ICL提供了新的途径。