摘要
arXiv:2504.07891v1 宣告类型: cross
摘要: 近期在推理时计算方面的进步通过使用大型推理模型(LRMs)生成长链推理(CoTs)显著提高了复杂任务的性能。然而,这种性能提升是以高推理延迟为代价的,因为生成的推理序列长度较长且解码具有自回归性。我们解决这些开销的关键洞察是,大型推理模型的推理及其嵌入的推理对近似具有高度容忍性:复杂的任务通常会分解为更简单的步骤,每个步骤基于它提供的对下游步骤的语义洞察而带来效用,而不是它生成的精确标记。相应地,我们引入了 SpecReason 系统,该系统通过使用一个轻量级模型(推测性地)执行更简单的中间推理步骤,仅在成本较高的基础模型上评估(以及可能纠正)推测输出来自动加速大型推理模型的推理。重要的是,SpecReason 关注利用思考标记的语义灵活性以保持最终答案的准确性,这与以前的推测技术(尤其是推测性解码)相辅相成,后者在每一步都需要标记级别的等价性。在各种推理基准测试中,SpecReason 在比原生大型推理模型推理快 1.5-2.5 倍的同时,准确率提高了 1.0-9.9%。与没有 SpecReason 的推测性解码相比,它们的结合体还额外减少了 19.4-44.2% 的延迟。我们在 https://github.com/ruipeterpan/specreason 开源了 SpecReason。