LLM2D

摘要

arXiv:2504.04383v1 宣布类型: 新摘要: 大型推理模型通过长而复杂的推理轨迹展现了惊人的推理能力。通过监督微调这些推理轨迹，也称为抽取，可以成为提升学生模型推理能力的一种成本效益高的方法。然而，经验观察表明，这些推理轨迹往往不理想，频繁地在不同的思路之间切换，导致推理不足、推理过度，甚至产生退化的响应。我们引入了Retro-Search，一种借鉴MCTS算法的搜索算法，用于从大型推理模型中抽取更高质量的推理路径。Retro-Search回顾性地修订推理路径，以发现更好的、更短的轨迹，进而引导学生模型以更短、更快的推理来进行增强推理。我们的方法可以实现两种应用场景：自我改进，即模型在其自身Retro-Search修订后的思考轨迹上进行微调；弱到强改进，即较弱的模型通过Retro-Search修订较强模型的思考轨迹。在自我改进方面，R1-distill-7B在其自身Retro-Search修订后的轨迹上进行微调，平均推理长度减少31.2%，并在七个数学基准中提高了7.7%的性能。在弱到强改进方面，我们使用R1-distill-32B作为Retro-Search修订者，从OpenThoughts数据集中回顾性修订R1-671B的轨迹。Qwen2.5-32B在此精炼数据上进行微调，其性能与R1-distill-32B相当，推理长度减少了11.3%，性能提高了2.4%，相比在原始OpenThoughts数据上进行微调有所改进。我们的工作反驳了最近出现的观点，即在大型推理模型时代，搜索算法的 relevance 并不重要，展示了即使在前沿模型中，仍有机会进行算法改进。