LLM2D
Home
Arxiv
返回列表
平衡KV缓存压缩通过分歧理论
BalanceKV: KV Cache Compression through Discrepancy Theory
作者:
Insu Han, Michael Kapralov, Ekaterina Kochetkova, Kshiteej Sheth, Amir Zandieh
发布日期:
2/13/2025
arXiv ID:
oai:arXiv.org:2502.07861v1
摘要
arXiv:2502.07861v1 宣告类型: cross 摘要: 大型语言模型(LLMs)取得了令人印象深刻的成效,但它们的高内存需求给长上下文标记生成带来了挑战。长上下文LLMs的内存复杂性主要源于需要在其KV缓存中存储键-值(KV)嵌入。我们提出了BalanceKV,这是一种基于Banaszczyk向量平衡理论的几何采样过程的KV缓存压缩方法,它引入了由键和值标记的几何结构指导的依赖关系,并提高了精度。BalanceKV在现有方法中提供了既已理论证明又经实验证明的性能改进。
查看原文
下载 PDF