LLM2D

摘要

投机解码 (SD) 已成为加速大型语言模型推理速度的一项重要技术。传统的 SD 方法采用固定的草稿长度，忽略了不同任务中令牌生成难度的差异。因此，本文针对此问题，提出了一种难度感知的动态草稿长度策略 SVIP，用于投机解码系统。基于草稿令牌接受率的理论下界及其推理时间的近似值，SVIP 根据每个草稿令牌分布的熵自适应地确定草稿序列的长度。在主流 SD 基准和框架上的实验结果证明了 SVIP 的优越性能，在 SpecBench 上比基线 SD 方法最多可实现 20% 的运行时间加速，在 MT-Bench 上对于长达 8K 个令牌的长文本生成可实现 60% 的加速。此外，SVIP 完全无需训练，并且兼容任何现有自回归生成草稿令牌的 SD 方法。实验结果还表明，SVIP 在 GliDe & CaPE 和 EAGLE-2 之上也获得了持续的运行时间改进。