LLM2D
Search-R1:使用强化学习训练大语言模型进行推理和利用搜索引擎
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
作者: Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2503.09516v3

摘要

arXiv:2503.09516v3 宣布类型: 替换-交叉 摘要:高效地获取外部知识和最新的信息是对大型语言模型(LLMs)进行有效推理和文本生成的关键。直接在推理过程中使用具有推理能力的高级LLMs提示搜索引擎通常效果不佳,因为LLM可能不具备如何最优地与搜索引擎交互的能力。本文提出了Search-R1,这是一种扩展的强化学习(RL)方法,使LLM在逐步推理过程中通过实时检索自动生成(多个)搜索查询。Search-R1利用检索到的标记掩蔽优化LLM的推理轨迹,并采用基于简单结果的奖励函数进行稳定的RL训练。在七个问答数据集上的实验表明,在相同设置下,与各种RAG基线相比,Search-R1分别提高了Qwen2.5-7B 41%和Qwen2.5-3B 20%的表现。此外,本文还提供了关于检索增强推理中的RL优化方法、LLM选择及响应长度动态的实证见解。相关代码和模型检查点可在 https://github.com/PeterGriffinJin/Search-R1 获取。