LLM2D

摘要

arXiv:2504.04704v1 宣称类型: cross 摘要：在大型语言模型（LLM）长时间上下文推理中，键-值（KV）缓存的不断增加的大小已成为其在部署成本与任务准确性之间平衡的主要障碍。在这种情况下，为了减少KV缓存大小，大多数先前的努力都是基于注意力权重来移除非关键缓存令牌。但在这些方法中存在权衡，它们通常需要对推理基础设施进行重大修改并产生显著的计算开销。基于大型语言模型是自回归模型的事实，我们提出了一种名为LagKV的KV分配策略，该策略仅依赖于对KV自身的直接比较。这是一种完全不依赖注意力的方法，它可以轻松集成到主流的推理平台中，在压缩比与其他复杂KV压缩方法相当的情况下，其性能具有可比性。LongBench和PasskeyRetrieval结果表明，当压缩比为2倍时，我们的方法几乎没有任何性能损失；而在压缩比为8倍的情况下，其性能相当于原有模型的约90%。特别是在64位密码检索任务中，我们的方法在相同的压缩比下比基于注意力权重的方法H_2O优越60%以上。我们的代码可在https://github.com/AI-Lab-China-Merchants-Bank/LagKV获得。