LLM2D
M2IV:走向高效且细粒度的多模态在上下文学习在大型视觉-语言模型中
M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models
作者: Yanshu Li, Hongyang He, Yi Cao, Qisen Cheng, Xiang Fu, Ruixiang Tang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04633v1

摘要

arXiv:2504.04633v1 宣布类型: cross 摘要: 多模态在上下文学习(ICL)是大型视觉-语言模型(LVLMs)的一项关键能力,允许通过上下文提示实现任务适应而不需重新训练参数。然而,其应用受到输入的标记密集特性和跨模态少样本学习的高复杂性限制,这限制了表示方法的表达能力。为了解决这些挑战,我们提出了一种名为 **M2IV** 的方法,该方法直接将可学习的 **I** 背景 **V** 向量集成到 LVLMs 中,替代显式的示例。通过利用多头注意力(**M**HA)和多层感知器(**M**LP)的互补优势,M2IV 通过训练实现了稳健的跨模态保真度和精细的语义提炼。这显著提升了多种 LVLMs 和任务的性能,并且能够在多样本场景下高效扩展,绕过了上下文窗口的限制。我们还引入了 **VLibrary**,这是一个用于存储和检索 M2IV 的存储库,使其能够灵活地指导涉及跨模态对齐、定制生成和安全改进等任务的 LVLM。跨越七个基准和三种 LVLM 的实验表明,M2IV 在与相同样本量的 ICL 相比下,平均准确度提高了 **3.74%**,同时还具有显著的效率优势。