LLM2D
深度研究员:通过在实际环境中的强化学习扩展深度研究
DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
作者: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.03160v4

摘要

arXiv:2504.03160v4 宣告类型:替换 摘要:配备了网络搜索能力的大语言模型(LLMs)在深入研究任务中展现了令人印象深刻的潜力。然而,当前的方法要么主要依赖于手工工程化的提示(提示工程法),其性能脆弱,要么采用在受控检索增强生成(RAG)环境中基于强化学习的方法(RAG法),这些方法难以捕捉现实世界交互的复杂性。在本文中,我们介绍了DeepResearcher,这是一个全面的框架,通过在具有真实网络搜索互动的现实环境中扩展强化学习(RL)来进行基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的RAG法不同,我们的方法训练代理能够导航开放网络的嘈杂、无结构和动态的特性。我们实现了一个专门的多代理架构,浏览代理从各种网页结构中提取相关信息,并克服了重大技术挑战。在开放域研究任务的广泛实验中,DeepResearcher在提示工程法基线上的表现提高了28.9分,在RAG法RL代理上的表现提高了7.2分。我们定性的分析揭示了端到端RL训练中出现的认知行为,包括制定计划的能力、从多个来源验证信息、进行反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果显示,真实世界网络环境中的端到端训练不仅是实现细节,而是开发与实际应用相一致的强大研究能力的基本要求。我们已在https://github.com/GAIR-NLP/DeepResearcher发布DeepResearcher。