LLM2D
Retro-搜索:探索未走之路以实现更深更高效的推理
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning
作者: Ximing Lu, Seungju Han, David Acuna, Hyunwoo Kim, Jaehun Jung, Shrimai Prabhumoye, Niklas Muennighoff, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04383v1

摘要

arXiv:2504.04383v1 宣布类型: 新 摘要: 大型推理模型通过长而复杂的推理轨迹展现了惊人的推理能力。通过监督微调这些推理轨迹,也称为抽取,可以成为提升学生模型推理能力的一种成本效益高的方法。然而,经验观察表明,这些推理轨迹往往不理想,频繁地在不同的思路之间切换,导致推理不足、推理过度,甚至产生退化的响应。我们引入了Retro-Search,一种借鉴MCTS算法的搜索算法,用于从大型推理模型中抽取更高质量的推理路径。Retro-Search回顾性地修订推理路径,以发现更好的、更短的轨迹,进而引导学生模型以更短、更快的推理来进行增强推理。我们的方法可以实现两种应用场景:自我改进,即模型在其自身Retro-Search修订后的思考轨迹上进行微调;弱到强改进,即较弱的模型通过Retro-Search修订较强模型的思考轨迹。在自我改进方面,R1-distill-7B在其自身Retro-Search修订后的轨迹上进行微调,平均推理长度减少31.2%,并在七个数学基准中提高了7.7%的性能。在弱到强改进方面,我们使用R1-distill-32B作为Retro-Search修订者,从OpenThoughts数据集中回顾性修订R1-671B的轨迹。Qwen2.5-32B在此精炼数据上进行微调,其性能与R1-distill-32B相当,推理长度减少了11.3%,性能提高了2.4%,相比在原始OpenThoughts数据上进行微调有所改进。我们的工作反驳了最近出现的观点,即在大型推理模型时代,搜索算法的 relevance 并不重要,展示了即使在前沿模型中,仍有机会进行算法改进。