LLM2D

摘要

arXiv:2504.00030v2 宣告类型: replace-cross 摘要：推测解码通过使用较小的草稿模型提出令牌，然后由较大的目标模型验证，从而加快了大型语言模型（LLM）的推理速度。然而，选择最优的推测长度对于在最大化加速的同时最小化浪费的计算至关重要。我们引入了 \textit{GammaTune} 和 \textit{GammaTune+}，这两种无需训练的自适应算法可以根据令牌接受率动态调整推测长度，使用的是基于启发式的切换机制。在 SpecBench 上针对多个任务和模型对进行评估，我们的方法优于其他基于启发式的做法和固定长度的推测解码，\textit{GammaTune} 实现了平均 15\% ($\pm$5\%) 的加速，\textit{GammaTune+} 实现了 16\% ($\pm$3\%) 的加速，同时减少了性能差异。这使 \textit{GammaTune} 成为一个稳健且高效的现场部署解决方案。