LLM2D

摘要

多模态大型语言模型 (MLLMs) 在各种任务中展现出强大的性能，无需从头开始训练。然而，它们面临着巨大的计算和内存限制，尤其是在处理超出上下文长度的多模态输入时，限制了它们的扩展性。本文提出了一种新方法，**TRSM**（**T**oken **R**eduction via **S**emantic **M**atch），它可以有效地减少视觉标记的数量，而不会影响 MLLM 的性能。受人类处理多模态任务方式的启发，TRSM 利用来自一种模态的语义信息来匹配另一种模态中的相关语义，从而减少视觉标记的数量。具体来说，为了保留与任务相关的视觉标记，我们使用文本提示作为查询向量来检索来自视觉提示的最相似向量，并将它们与文本标记合并。根据实验结果，当应用于 LLaVA-1.5\cite{liu2023} 时，我们的方法将视觉标记压缩了 20%，在各种视觉问答和推理任务中取得了相当的性能。