LLM2D
草稿模型知道何时停止:一种用于投机解码的自验证长度策略
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
作者: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18462v1

摘要

投机解码 (SD) 已成为加速大型语言模型推理速度的一项重要技术。传统的 SD 方法采用固定的草稿长度,忽略了不同任务中令牌生成难度的差异。因此,本文针对此问题,提出了一种难度感知的动态草稿长度策略 SVIP,用于投机解码系统。基于草稿令牌接受率的理论下界及其推理时间的近似值,SVIP 根据每个草稿令牌分布的熵自适应地确定草稿序列的长度。在主流 SD 基准和框架上的实验结果证明了 SVIP 的优越性能,在 SpecBench 上比基线 SD 方法最多可实现 20% 的运行时间加速,在 MT-Bench 上对于长达 8K 个令牌的长文本生成可实现 60% 的加速。此外,SVIP 完全无需训练,并且兼容任何现有自回归生成草稿令牌的 SD 方法。实验结果还表明,SVIP 在 GliDe & CaPE 和 EAGLE-2 之上也获得了持续的运行时间改进。