摘要
arXiv:2501.19324v2 宣传类型: 替换-交叉
摘要:我们介绍了奖励引导推测解码(RSD),这是一种旨在提高大型语言模型(LLMs)推理效率的新颖框架。RSD 将一个轻量级草案模型与一个更强大的目标模型协同结合,并引入可控偏见以优先处理高奖励输出,与现有的推测解码方法(这些方法强制执行严格的无偏性)形成对比。RSD 使用过程奖励模型评估中间解码步骤,并动态决定是否调用目标模型,从而优化计算成本与输出质量之间的权衡。理论上,我们证明了基于阈值的混合策略在资源利用与性能之间实现了最优平衡。在挑战性推理基准上的广泛评估,包括奥林匹克级别的任务,表明与仅使用目标模型解码相比,RSD 可获得显著的效率提升(最多可减少 4.4 倍的 FLOPs),同时在平均性能上优于并行解码方法(最多提高 3.5%)。这些结果突出了 RSD 在资源密集场景下部署 LLMS 的稳健性和经济性。代码可在 https://github.com/BaohaoLiao/RSD 获取。