LLM2D

摘要

大型语言模型（LLM）彻底改变了自然语言处理领域，在各种应用中取得了前所未有的性能。然而，它们不断增长的计算和内存需求带来了巨大的挑战，尤其是在处理长序列时。本文重点关注长上下文场景，解决推理过程中 KV 缓存内存消耗的低效问题。与根据序列长度优化内存的现有方法不同，我们发现 KV 缓存的通道维度中存在大量冗余，这由注意力权重的不均匀幅度分布和低秩结构所表明。针对这一问题，我们提出了 ThinK，一种新颖的查询依赖 KV 缓存剪枝方法，旨在最大程度地减少注意力权重损失，同时选择性地剪枝最不重要的通道。我们的方法不仅保持或提高了模型精度，而且与传统的 KV 缓存驱逐和量化方法相比，将 KV 缓存内存成本降低了 20% 以上。例如，与 KIVI 集成的 ThinK 可以将峰值内存使用量减少 2.8 倍，同时保持几乎相同的质量，在使用单个 GPU 时将批次大小提高 5 倍。对 LLaMA 和 Mistral 模型在各种长序列数据集上的广泛评估验证了 ThinK 的效率，为高效的 LLM 部署建立了新的基准算法，而不会影响性能。