LLM2D

摘要

arXiv:2502.13542v1 类型: cross 摘要: 近期大规模语言模型（LLMs）在长上下文任务中展示了出色的表现，但在有限的GPU内存下面临着显著的推理效率挑战。现有解决方案首先提出了滑动窗口方法来累积一组可重用的历史 \textbf{关键-值}（KV）对，然后在每一步进一步保留其子集。然而，由于长上下文中注意力分布稀疏，很难识别和回忆相关的KV对，因为在众多候选对中注意力容易分散。此外，我们发现，在每个滑动窗口中选择具有代表性的标记作为探针-查询，有效地代表整个上下文，这是一种现有方法所忽视的方法。因此，我们提出了一种无需训练、基于激活的 \textbf{ActQKV} 方法，该方法动态确定探针-查询，并利用其在填充前阶段检索相关的KV对。具体而言，ActQKV 监控每个上下文窗口中的标记级指示符，激活偏差，使能够在填充前阶段正确构造用于检索的探针-查询。为了准确回忆相关的KV对并最小化无关的KV对，我们设计了一种由解码阶段跨层信息密度引导的动态KV截断机制。在Long-Bench和$\infty$ Benchmarks上的实验展示了其在保持竞争力的推理质量和资源效率的同时具有最先进的性能。