摘要
arXiv:2504.12329v1 宣告类型: cross
摘要: 最近的进展通过后训练来增强模型的推理性能,这通常需要昂贵的训练管道,并且仍然遭受效率低下、输出时间过长的问题。我们引入了推测性思考,这是一个无训练框架,能够使大型推理模型在推理层面引导较小的模型进行推理,这与在令牌层面工作的推测性解码不同。我们的方法基于两个观察:(1) 在结构分隔符如"\n\n"之后经常出现推理支持性令牌如"wait",这些令牌作为反思或继续的信号;(2) 较大的模型表现出更强的控制反射行为的能力,减少了不必要的回溯,同时提高了推理质量。通过战略性地将反射步骤委派给一个更有能力的模型,我们的方法显著提升了推理模型的推理准确性,同时缩短了其输出时间。在32B推理模型的辅助下,1.5B模型在MATH500上的准确性从83.2%提升到89.4%,标志着显著提高了6.2%。同时,平均输出长度从5439个令牌减少到4583个令牌,减少了15.7%。此外,当应用于非推理模型(Qwen-2.5-7B-Instruct)时,我们的框架使其在相同的基准测试上的准确性从74.0%提高到81.8%,实现了7.8%的相对改进。