LLM2D

摘要

大型语言模型（LLM）具有强大的指令遵循能力，能够根据人类指令解释和执行任务。多模态大型语言模型（MLLM）的指令遵循能力不如LLM。然而，MLLM和LLM在指令遵循能力方面存在显著差距。本研究进行了一项初步实验，结果表明，对视觉标记进行空间下采样可以显著增强MLLM的指令遵循能力。这归因于视觉模态中大量的冗余信息。然而，这种直观的方法严重损害了MLLM的多模态理解能力。本文提出视觉模态标记压缩 (VMTC) 和跨模态注意力抑制 (CMAI) 策略，通过抑制内容生成过程中无关视觉标记的影响，来弥合MLLM和LLM之间的差距，从而提高MLLM的指令遵循能力，同时保留其多模态理解能力。在VMTC模块中，保留主要标记，并通过标记聚类和合并来压缩冗余标记。在CMAI过程中，我们通过文本到文本注意力来聚合文本到图像的注意力，以获得文本到图像的焦点分数。对分数低的文本-图像标记对进行注意力抑制。我们在指令遵循能力和VQA-V2、GQA、TextVQA、MME和MMBench五个基准测试上的综合实验表明，该策略显著增强了MLLM的指令遵循能力，同时保留了理解和处理多模态输入的能力。