LLM2D
高效长解码推理与推理感知注意力稀疏性
Efficient Long-Decoding Inference with Reasoning-Aware Attention Sparsity
作者: Junhao Hu, Wenrui Huang, Weidong Wang, Zhenwen Li, Tiancheng Hu, Zhixia Liu, Xusheng Chen, Tao Xie, Yizhou Shan
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11147v1

摘要

arXiv:2502.11147v1 声明类型: cross 摘要: 大型语言模型(LLMs)已经在各个领域展示了强大的能力,特别是在数学和编程等具有挑战性的推理任务中取得了近期进展。然而,解决推理任务通常需要较长的解码链(即思维链),这导致了$O(N)$的时间和内存消耗,其中$N$是链的长度。为了缓解$O(N)$的时间和内存消耗,现有的基于稀疏性的算法仅保留最重要的中间token(即键值缓存)并丢弃其余部分。然而,这些现有算法难以兼顾准确度、时间和内存。例如,最先进的算法Quest在时间复杂度为$O(L)$的情况下实现了高准确度($L$是缓存预算,$L \ll N$),但在内存消耗为$O(N)$。为了解决这一问题,本文在推理任务的解码阶段鉴定出一个新的注意模式,其中关键里程碑token(类似于数学证明中的引理)出现、被使用,随后不再重要。基于这一模式,我们提出了一种新的算法RaaS,仅在不再需要时识别并保留这些关键里程碑token,从而在时间复杂度为$O(L)$和内存复杂度为$O(L)$的情况下实现了高准确度。