LLM2D
检索替换缩减:一种基于语义匹配的有效视觉令牌缩减方法
Retrieval Replace Reduction: An effective visual token reduction method via semantic match
作者: Yingen Liu, Fan Wu, Ruihui Li, Zhuo Tang, Kenli Li
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07278v1

摘要

多模态大型语言模型 (MLLMs) 在各种任务中展现出强大的性能,无需从头开始训练。然而,它们面临着巨大的计算和内存限制,尤其是在处理超出上下文长度的多模态输入时,限制了它们的扩展性。本文提出了一种新方法,**TRSM**(**T**oken **R**eduction via **S**emantic **M**atch),它可以有效地减少视觉标记的数量,而不会影响 MLLM 的性能。受人类处理多模态任务方式的启发,TRSM 利用来自一种模态的语义信息来匹配另一种模态中的相关语义,从而减少视觉标记的数量。具体来说,为了保留与任务相关的视觉标记,我们使用文本提示作为查询向量来检索来自视觉提示的最相似向量,并将它们与文本标记合并。根据实验结果,当应用于 LLaVA-1.5\cite{liu2023} 时,我们的方法将视觉标记压缩了 20%,在各种视觉问答和推理任务中取得了相当的性能。