LLM2D
通过减少图像冗余来增强视觉语言模型的指令遵循能力
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy
作者: Te Yang, Jian Jia, Xiangyu Zhu, Weisong Zhao, Bo Wang, Yanhua Cheng, Yan Li, Shengyuan Liu, Quan Chen, Peng Jiang, Kun Gai, Zhen Lei
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15453v1

摘要

大型语言模型(LLM)具有强大的指令遵循能力,能够根据人类指令解释和执行任务。多模态大型语言模型(MLLM)的指令遵循能力不如LLM。然而,MLLM和LLM在指令遵循能力方面存在显著差距。本研究进行了一项初步实验,结果表明,对视觉标记进行空间下采样可以显著增强MLLM的指令遵循能力。这归因于视觉模态中大量的冗余信息。然而,这种直观的方法严重损害了MLLM的多模态理解能力。本文提出视觉模态标记压缩 (VMTC) 和跨模态注意力抑制 (CMAI) 策略,通过抑制内容生成过程中无关视觉标记的影响,来弥合MLLM和LLM之间的差距,从而提高MLLM的指令遵循能力,同时保留其多模态理解能力。在VMTC模块中,保留主要标记,并通过标记聚类和合并来压缩冗余标记。在CMAI过程中,我们通过文本到文本注意力来聚合文本到图像的注意力,以获得文本到图像的焦点分数。对分数低的文本-图像标记对进行注意力抑制。我们在指令遵循能力和VQA-V2、GQA、TextVQA、MME和MMBench五个基准测试上的综合实验表明,该策略显著增强了MLLM的指令遵循能力,同时保留了理解和处理多模态输入的能力。