LLM2D
推理最优视觉语言模型需要 fewer 视觉令牌和更多参数
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters
作者: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2411.03312v2

摘要

arXiv:2411.03312v2 宣告类型: replace-cross 摘要:视觉语言模型(VLMs)在各种视觉理解和推理任务中展现出了强大的能力,这主要得益于在大型语言模型(LLMs)的token输入中加入了图像表示。然而,由于LLM处理大量输入token(主要是图像)所需的大量计算资源,它们在实际部署中的广泛应用常常受到推断延迟高的限制。为减少推断成本,可以缩小LLM或减少所需表示图像的输入token数量,后一种方法一直是近期许多努力的研究重点。然而,给定固定推断预算,最佳的权衡尚不明确。我们首先通过建立捕捉这两个因素变化的放大规模律,来表征视觉token数量和LLM参数之间的最优权衡。我们的结果揭示了一个出人意料的趋势:对于视觉推理任务,VLMs在推断时的最佳行为是使用符合推断预算的最大的LLM,同时最小化视觉token数量——通常只用一个token。虽然token减少文献主要集中在通过适度减少token数量(例如$5-10$倍)来保持基础模型性能,但我们的结果表明,计算最优的推断模式要求在更高token压缩比下操作。基于这些见解,我们朝着设计适合高压缩设置的token压缩算法迈出了第一步,利用基于提示的token压缩。我们的工作突显了在低视觉token模式下操作的性能和效率优势,并强调了为此类条件发展定制的token减少算法的重要性。代码可在 https://github.com/locuslab/llava-token-compression获取。