LLM2D

摘要

arXiv:2503.02175v2 宣告类型: replace-cross 摘要: 大型多模态模型（LMMs）已经发展成为能够理解多种数据模态的强大模型，包括文本、图像和视频。LMMs 将文本和视觉数据编码成tokens，然后由集成的大语言模型（LLM）进行组合和处理。包含视觉tokens大幅增加了总的tokens数量，通常增加数千个。对于LLM的增加输入长度显著增加了推理的复杂性，导致大模态模型（LMMs）的高延迟。为了解决这个问题，提出了一种tokens剪枝方法，该方法去除了一部分视觉tokens。现有的tokens剪枝方法要么需要大量的校准和微调，要么依赖于次优的重要性指标，这导致保留的tokens之间存在增加的冗余性。在本文中，我们首先将tokens剪枝问题形式化为最大最小多样性问题（MMDP），目标是在所选tokens之间最大化多样性。然后，我们解决了MMDP来获得所选子集并剪枝其余部分。所提出的方法DivPrune减少了冗余性并且实现了选定tokens的最高多样性。通过确保高多样性，选定的tokens更好地代表了原始tokens，即使在高剪枝比例下也不需要微调也能实现有效性能。使用各种LMMs进行的广泛实验表明，DivPrune在16个图像和视频语言数据集上实现了最先进的准确性。此外，DivPrune还降低了测试模型的端到端延迟和GPU内存使用量。代码可在$\href{https://github.com/vbdi/divprune}{这里}$获得。