摘要
arXiv:2503.10714v2 宣告类型: 替换交叉引用
摘要:键值(KV)缓存内存的线性增长和注意力机制中计算复杂性的二次增长为大规模语言模型(LLM)在长上下文处理中带来了显著瓶颈。尽管现有的KV缓存优化方法通过分词剪裁或特征合并来解决这些挑战,但它们往往会导致不可逆的信息损失或需要昂贵的参数重新训练。为了解决这些问题,我们提出了ZSMerge,这是一种动态KV缓存压缩框架,旨在高效地管理缓存,具有三个关键操作:(1)由头级多维度分词重要性度量引导的精细内存分配,(2)一种残差合并机制,通过补偿注意力评分来保留关键上下文,以及(3)一种与各种LLM架构兼容的零样本适应机制,无需重新训练。ZSMerge显著提高了内存效率和推理速度,同时在LLM中几乎没有性能退化。当应用于LLaMA2-7B时,它证明了20:1的缓存压缩比(将内存足迹降低到基线的5%),同时保持了可比的生成质量,并在极端54k分词上下文中实现了三倍的吞吐量增益,从而消除了内存不足的失败。代码可在https://github.com/SusCom-Lab/ZSMerge 获取。