LLM2D

摘要

arXiv:2411.03312v2 宣告类型: replace-cross 摘要：视觉语言模型（VLMs）在各种视觉理解和推理任务中展现出了强大的能力，这主要得益于在大型语言模型（LLMs）的token输入中加入了图像表示。然而，由于LLM处理大量输入token（主要是图像）所需的大量计算资源，它们在实际部署中的广泛应用常常受到推断延迟高的限制。为减少推断成本，可以缩小LLM或减少所需表示图像的输入token数量，后一种方法一直是近期许多努力的研究重点。然而，给定固定推断预算，最佳的权衡尚不明确。我们首先通过建立捕捉这两个因素变化的放大规模律，来表征视觉token数量和LLM参数之间的最优权衡。我们的结果揭示了一个出人意料的趋势：对于视觉推理任务，VLMs在推断时的最佳行为是使用符合推断预算的最大的LLM，同时最小化视觉token数量——通常只用一个token。虽然token减少文献主要集中在通过适度减少token数量（例如$5-10$倍）来保持基础模型性能，但我们的结果表明，计算最优的推断模式要求在更高token压缩比下操作。基于这些见解，我们朝着设计适合高压缩设置的token压缩算法迈出了第一步，利用基于提示的token压缩。我们的工作突显了在低视觉token模式下操作的性能和效率优势，并强调了为此类条件发展定制的token减少算法的重要性。代码可在 https://github.com/locuslab/llava-token-compression获取。