摘要
arXiv:2503.19470v1 宣布类型: 新
摘要: 大型语言模型(LLMs)在推理方面展示了令人瞩目的能力,如OpenAI-o1和DeepSeek-R1的成功所示。然而,将推理与外部搜索过程集成仍然具有挑战性,特别是在处理需要多步检索的复杂多跳问题时。我们提出了一种名为ReSearch的新型框架,该框架通过强化学习训练LLMs进行搜索推理,无需使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的核心组件,何时以及如何执行搜索由基于文本的思考指导,搜索结果随后影响进一步的推理。我们使用Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型训练ReSearch,并进行了广泛的实验。尽管仅使用一个数据集进行训练,但我们的模型在各种基准测试中表现出强大的通用性。分析表明,在强化学习过程中,ReSearch自然地诱发了诸如反思和自我修正等高级推理能力。