摘要
arXiv:2502.12216v1 交叉类型: cross
摘要:长上下文模型在许多应用中至关重要,但在解码过程中面临在加载大型KV缓存时的效率低下问题。之前的 方法强制实施稀疏注意的固定标记预算,假设一定数量的标记可以近似完整注意。然而,这些方法忽视了注意在不同头、层和上下文中的重要性变化。为了应对这些限制,我们提出了一种名为Tactic的稀疏注意机制,该机制适应性地选择标记,根据累积注意力得分而非固定标记预算来动态选择标记。通过设置总注意力得分的目标比例,Tactic 确保标记选择能够自然地适应注意稀疏性的变化。为了有效地近似这种选择,Tactic 利用了基于聚类的排序和分布拟合方法,使其能够以最小的计算开销精确估计标记的重要性。实验结果表明,Tactic 在性能上优于现有稀疏注意算法,实现了更好的准确性和高达7.29倍的解码注意速度提升。这种改进相当于端到端推理速度提升了1.58倍,使得Tactic 成为了长上下文LLM推理在准确性敏感应用中实用而有效的解决方案。