LLM2D

摘要

级联和推测解码是提高语言模型推理效率的两种常见方法。两种方法都涉及交织不同大小的模型，但通过根本不同的机制：级联采用推迟规则，仅对“困难”输入调用较大的模型，而推测解码使用推测执行，主要在并行验证模式下调用较大的模型。这些机制提供了不同的优势：从经验上看，级联提供了更好的成本-质量权衡，通常甚至优于大型模型，而从理论上讲，推测解码提供了质量中立的保证。在本文中，我们通过设计新的推测级联技术来利用这两种方法的优势，这些技术通过推测执行来实现它们的推迟规则。我们描述了我们推测级联的最佳推迟规则，并采用了最佳规则的插件近似值。在 Gemma 和 T5 模型上进行的一系列语言基准测试实验表明，我们的方法比级联和推测解码基线产生了更好的成本质量权衡。