摘要
arXiv:2504.04383v2 提示类型: 替换
摘要:大型推理模型通过长而复杂的推理轨迹展现了令人瞩目的推理能力。在这种推理轨迹的监督微调,也称为蒸馏,可以是一种成本效益高的方法,用于提高学生模型的推理能力。然而,实证观察表明,这些推理轨迹往往是次优的,过度地在不同思路之间切换,导致了思考不足、思考过度,甚至出现退化反应。我们介绍了Retro-Search,一种受到蒙特卡洛树搜索(MCTS)启发的搜索算法,用于从大型推理模型中蒸馏出更高质量的推理路径。Retro-Search回顾性地修订推理路径,以发现更好的、更短的轨迹,从而可以引导出推理能力增强的学生模型,并且 inference 过程更短,因此更快。我们的方法可以启用两种用例:自我改进,其中模型在其自己的Retro-Search修订的思考轨迹上进行微调;以及弱到强改进,其中较弱的模型通过Retro-Search修订更强模型的思考轨迹。对于自我改进,R1-distill-7B在其自己的Retro-Search修订的轨迹上进行微调,平均推理长度减少了31.2%,并在七个数学基准上提升了7.7%的性能。对于弱到强改进,我们使用R1-distill-32B作为Retro-Search器,从OpenThoughts数据集中回顾性修订R1-671B的轨迹,R1-671B的一个20倍更小的模型,Qwen2.5-32B,在这种经过改进的数据上进行微调,性能与R1-distill-32B相当,推理长度减少了11.3%,并在原本的OpenThoughts数据上进行微调的基础上提升了2.4%的性能。我们的工作反驳了最近出现的认为在大型推理模型时代搜索算法不再相关的观点,通过展示即使对于前沿模型,仍然存在算法改进的机遇。