LLM2D

摘要

arXiv:2504.07891v1 宣告类型: cross 摘要: 近期在推理时计算方面的进步通过使用大型推理模型（LRMs）生成长链推理（CoTs）显著提高了复杂任务的性能。然而，这种性能提升是以高推理延迟为代价的，因为生成的推理序列长度较长且解码具有自回归性。我们解决这些开销的关键洞察是，大型推理模型的推理及其嵌入的推理对近似具有高度容忍性：复杂的任务通常会分解为更简单的步骤，每个步骤基于它提供的对下游步骤的语义洞察而带来效用，而不是它生成的精确标记。相应地，我们引入了 SpecReason 系统，该系统通过使用一个轻量级模型（推测性地）执行更简单的中间推理步骤，仅在成本较高的基础模型上评估（以及可能纠正）推测输出来自动加速大型推理模型的推理。重要的是，SpecReason 关注利用思考标记的语义灵活性以保持最终答案的准确性，这与以前的推测技术（尤其是推测性解码）相辅相成，后者在每一步都需要标记级别的等价性。在各种推理基准测试中，SpecReason 在比原生大型推理模型推理快 1.5-2.5 倍的同时，准确率提高了 1.0-9.9%。与没有 SpecReason 的推测性解码相比，它们的结合体还额外减少了 19.4-44.2% 的延迟。我们在 https://github.com/ruipeterpan/specreason 开源了 SpecReason。