LLM2D

摘要

arXiv:2503.09516v3 宣布类型: 替换-交叉摘要：高效地获取外部知识和最新的信息是对大型语言模型（LLMs）进行有效推理和文本生成的关键。直接在推理过程中使用具有推理能力的高级LLMs提示搜索引擎通常效果不佳，因为LLM可能不具备如何最优地与搜索引擎交互的能力。本文提出了Search-R1，这是一种扩展的强化学习（RL）方法，使LLM在逐步推理过程中通过实时检索自动生成（多个）搜索查询。Search-R1利用检索到的标记掩蔽优化LLM的推理轨迹，并采用基于简单结果的奖励函数进行稳定的RL训练。在七个问答数据集上的实验表明，在相同设置下，与各种RAG基线相比，Search-R1分别提高了Qwen2.5-7B 41%和Qwen2.5-3B 20%的表现。此外，本文还提供了关于检索增强推理中的RL优化方法、LLM选择及响应长度动态的实证见解。相关代码和模型检查点可在 https://github.com/PeterGriffinJin/Search-R1 获取。