LLM2D

摘要

arXiv:2503.04839v2 交叉替换通知类型: 摘要：跨模态上下文学习（ICL）已成为大型视觉语言模型（LVLMs）的关键能力，这得益于其不断增加的规模和适用性。尽管具有很大的潜力，但多模态环境中的有效ICL仍然具有挑战性，原因在于图像-文本输入的固有复杂性和ICL性能对输入配置的高敏感性。在这项工作中，我们揭示了多模态ICL背后的核心机制，确定了任务映射是配置稳健的上下文学习演示（ICD）序列的关键因素。基于这些见解，我们提出了一个轻量级但功能强大的仅解码器变压器SabER，该变压器配备了任务感知注意机制，可以智能地选择和排列示例库中的ICD，在自回归方式下进行安排。这种设计使细粒度特征提取和跨模态推理成为可能，并逐步精化任务映射以生成高质量的ICD序列。通过涵盖五个大型视觉语言模型和九个基准数据集的广泛实验，SabER不仅展示了强大的实证性能，还进一步揭示了任务语义如何与多模态ICD相互作用。我们的发现突显了概念上恰当的ICD序列配置的重要性，并为在各种实际场景中增强多模态ICL提供了新的途径。