LLM2D
高效推理方法的深入研究:一种推测解码方法综述
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding
作者: Hyun Ryu, Eric Kim
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.13157v2

摘要

大型语言模型 (LLM) 的高效推理已成为一个关键焦点,因为它们的规模和复杂性都在增长。传统的自回归解码虽然有效,但由于其顺序令牌生成过程而导致计算效率低下。推测性解码通过引入两阶段框架(起草和验证)来解决这一瓶颈。一个更小、更高效的模型生成初步草稿,然后由一个更大、更复杂的模型进行细化。本文对推测性解码方法进行了全面综述,将其分为以草稿为中心和以模型为中心的方法。我们讨论了与每种方法相关的关键思想,突出了它们在扩展 LLM 推理方面的潜力。本综述旨在指导未来在优化推测性解码及其集成到现实世界 LLM 应用中的研究。