LLM2D

摘要

arXiv:2504.15364v1 宣告类型: 新颖摘要: 在这项工作中，我们展示了在LLM推理过程中，具有显著性的键通常具有高注意力分数。我们研究了这一现象，并提出了KeyDiff，一种基于键相似性的训练-free KV缓存驱逐方法。这种方法有助于在资源受限且内存和计算预算有限的环境中部署基于LLM的应用程序，特别是那些需要长输入提示的应用程序。与其它KV缓存驱逐方法不同，KeyDiff可以在严格的资源限制下处理任意长的提示，并高效生成响应。我们证明，KeyDiff计算了KV缓存选择问题的最优解，该问题的目标是最大化键的多样性，从而为KeyDiff提供了一个理论上的理解。值得注意的是，KeyDiff不依赖于注意力分数，这使得可以使用优化的注意力机制，如FlashAttention。我们在各种任务和模型上展示了KeyDiff的有效性，表明在LongBench基准上，对于Llama 3.1-8B和Llama 3.2-3B模型，与非驱逐基线相比，8K缓存预算（约23%的KV缓存减少）的性能差距小于0.04%。