LLM2D

摘要

arXiv:2502.11147v1 声明类型: cross 摘要: 大型语言模型（LLMs）已经在各个领域展示了强大的能力，特别是在数学和编程等具有挑战性的推理任务中取得了近期进展。然而，解决推理任务通常需要较长的解码链（即思维链），这导致了$O(N)$的时间和内存消耗，其中$N$是链的长度。为了缓解$O(N)$的时间和内存消耗，现有的基于稀疏性的算法仅保留最重要的中间token（即键值缓存）并丢弃其余部分。然而，这些现有算法难以兼顾准确度、时间和内存。例如，最先进的算法Quest在时间复杂度为$O(L)$的情况下实现了高准确度（$L$是缓存预算，$L \ll N$），但在内存消耗为$O(N)$。为了解决这一问题，本文在推理任务的解码阶段鉴定出一个新的注意模式，其中关键里程碑token（类似于数学证明中的引理）出现、被使用，随后不再重要。基于这一模式，我们提出了一种新的算法RaaS，仅在不再需要时识别并保留这些关键里程碑token，从而在时间复杂度为$O(L)$和内存复杂度为$O(L)$的情况下实现了高准确度。