LLM2D
ThinK:基于查询驱动的修剪的更薄的键缓存
ThinK: Thinner Key Cache by Query-Driven Pruning
作者: Yuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2407.21018v2

摘要

大型语言模型(LLM)彻底改变了自然语言处理领域,在各种应用中取得了前所未有的性能。然而,它们不断增长的计算和内存需求带来了巨大的挑战,尤其是在处理长序列时。本文重点关注长上下文场景,解决推理过程中 KV 缓存内存消耗的低效问题。与根据序列长度优化内存的现有方法不同,我们发现 KV 缓存的通道维度中存在大量冗余,这由注意力权重的不均匀幅度分布和低秩结构所表明。针对这一问题,我们提出了 ThinK,一种新颖的查询依赖 KV 缓存剪枝方法,旨在最大程度地减少注意力权重损失,同时选择性地剪枝最不重要的通道。我们的方法不仅保持或提高了模型精度,而且与传统的 KV 缓存驱逐和量化方法相比,将 KV 缓存内存成本降低了 20% 以上。例如,与 KIVI 集成的 ThinK 可以将峰值内存使用量减少 2.8 倍,同时保持几乎相同的质量,在使用单个 GPU 时将批次大小提高 5 倍。对 LLaMA 和 Mistral 模型在各种长序列数据集上的广泛评估验证了 ThinK 的效率,为高效的 LLM 部署建立了新的基准算法,而不会影响性能。