摘要
arXiv:2502.11101v1 类型:交叉
摘要:大型语言模型(LLMs)在各种语言任务中表现出色,但受限于输入长度有限和高计算成本。现有方法,如相对位置编码(例如,RoPE,ALiBi)和滑动窗口机制,部分缓解了这些问题,但通常需要额外的训练或在长输入时性能下降。在本文中,我们介绍了一种名为 \textbf{\textit{CacheFocus}} 的方法,该方法可以在不进行进一步训练的情况下增强长度归一化并减少推理延迟。我们的方法利用查询无关、离线缓存来高效地重用上下文 KV 缓存库。我们通过重新定位缓存键并引入分层适配缓存修剪来解决异常tokens分布放大的问题,从而在预填充期间丢弃低相关性缓存。此外,我们动态的适应性位置分配策略根据可用的位置编码范围最大化地重新分配缓存位置。实验显示,CacheFocus 在自然问题和TriviaQA数据集上优于其他方法,即使输入超过 \texttt{LLaMA-2} 模型的 4K 限制,也强调了其在长上下文LLMs中的实际效果。此外,即使 \texttt{Qwen2} 的最大输入长度很大,CacheFocus 的性能在文档数量增加时保持一致,有效地管理长文本生成而不会下降。