摘要
arXiv:2501.19324v1 通告类型: 交叉
摘要: 我们介绍了奖励引导推测解码(Reward-Guided Speculative Decoding, RSD),这是一种旨在提高大型语言模型(Large Language Models, LLMs)推理效率的新颖框架。RSD 智能结合了轻量级的草稿模型和更为强大的目标模型,并在此过程中引入了可控的偏差以优先考虑高奖励输出,这与现有的推测解码方法相比,这些方法强制执行严格的无偏序。RSD 使用过程奖励模型来评估中间解码步骤,并动态决定是否调用目标模型,以此优化计算成本与输出质量之间的权衡。理论上证明,基于阈值的混合策略在资源利用和性能之间实现了最佳平衡。在包括奥林匹克级别的任务在内的各种具有挑战性的推理基准测试中,广泛的评估表明,与仅使用目标模型解码相比,RSD 能够实现显著的效率提升(最多4.4倍的FLOPs减少),同时在平均情况下比并行解码方法具有显著更高的准确性(最多+3.5)。这些结果突显了RSD作为一种在资源密集型场景下部署LLMs的稳健且成本效益高的方法。