摘要
大型语言模型 (LLM) 的高效推理已成为一个关键焦点,因为它们的规模和复杂性都在增长。传统的自回归解码虽然有效,但由于其顺序令牌生成过程而导致计算效率低下。推测性解码通过引入两阶段框架(起草和验证)来解决这一瓶颈。一个更小、更高效的模型生成初步草稿,然后由一个更大、更复杂的模型进行细化。本文对推测性解码方法进行了全面综述,将其分为以草稿为中心和以模型为中心的方法。我们讨论了与每种方法相关的关键思想,突出了它们在扩展 LLM 推理方面的潜力。本综述旨在指导未来在优化推测性解码及其集成到现实世界 LLM 应用中的研究。