摘要
投机解码 (SD) 已成为加速大型语言模型推理速度的一项重要技术。传统的 SD 方法采用固定的草稿长度,忽略了不同任务中令牌生成难度的差异。因此,本文针对此问题,提出了一种难度感知的动态草稿长度策略 SVIP,用于投机解码系统。基于草稿令牌接受率的理论下界及其推理时间的近似值,SVIP 根据每个草稿令牌分布的熵自适应地确定草稿序列的长度。在主流 SD 基准和框架上的实验结果证明了 SVIP 的优越性能,在 SpecBench 上比基线 SD 方法最多可实现 20% 的运行时间加速,在 MT-Bench 上对于长达 8K 个令牌的长文本生成可实现 60% 的加速。此外,SVIP 完全无需训练,并且兼容任何现有自回归生成草稿令牌的 SD 方法。实验结果还表明,SVIP 在 GliDe & CaPE 和 EAGLE-2 之上也获得了持续的运行时间改进。