LLM2D
基于推测解码的更快速级联
Faster Cascades via Speculative Decoding
作者: Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2405.19261v2

摘要

级联和推测解码是提高语言模型推理效率的两种常见方法。两种方法都涉及交织不同大小的模型,但通过根本不同的机制:级联采用推迟规则,仅对“困难”输入调用较大的模型,而推测解码使用推测执行,主要在并行验证模式下调用较大的模型。这些机制提供了不同的优势:从经验上看,级联提供了更好的成本-质量权衡,通常甚至优于大型模型,而从理论上讲,推测解码提供了质量中立的保证。在本文中,我们通过设计新的推测级联技术来利用这两种方法的优势,这些技术通过推测执行来实现它们的推迟规则。我们描述了我们推测级联的最佳推迟规则,并采用了最佳规则的插件近似值。在 Gemma 和 T5 模型上进行的一系列语言基准测试实验表明,我们的方法比级联和推测解码基线产生了更好的成本质量权衡。