LLM2D

摘要

arXiv:2504.00030v1 类型: cross 摘要:推测性解码通过使用较小的草稿模型来提出标记，然后由较大的目标模型验证，从而加快大型语言模型（LLM）的推理速度。然而，选择一个最佳的推测长度对于最大化速度提升并最小化不必要的计算至关重要。我们引入了 \textit{GammaTune} 和 \textit{GammaTune+}，这两种无需训练的自适应算法可以根据标记接受率动态调整推测长度，并采用基于启发式的切换机制。在 SpecBench 上跨多个任务和模型对进行评估，我们的方法在其他基于启发式的做法和固定长度的推测性解码中表现更佳，使用 \textit{GammaTune} 实现了平均 15%（±5%）的速度提升，使用 \textit{GammaTune+} 实现了 16%（±3%）的速度提升，同时减少了性能波动。这使 \textit{GammaTune} 成为一种在实际部署中稳健且高效的解决方案。