摘要
arXiv:2503.19470v2 通知类型: 替换
摘要:大型语言模型(LLMs)在推理方面展现了显著的能力,比如OpenAI-o1和DeepSeek-R1的成功。然而,将推理与外部搜索过程集成仍然具有挑战性,尤其是在处理需要多步检索的复杂多跳问题时。我们提出了ReSearch,这是一个新颖的框架,通过强化学习训练LLMs进行推理与搜索,而不使用关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的核心组件,在此过程中何时以及如何执行搜索由基于文本的思考引导,而搜索结果随后影响进一步的推理。我们使用Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型训练ReSearch,并进行了广泛的实验。尽管仅在一个数据集上进行训练,我们的模型在各种基准测试上显示出强大的泛化能力。分析表明,ReSearch在强化学习过程中自然地激发了诸如反思和自我纠正等高级推理能力。