LLM2D
DeepResearcher: 在实际环境中通过强化学习扩展深度研究
DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
作者: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03160v1

摘要

arXiv:2504.03160v1 公告类型: 新 摘要: 具备网络搜索能力的大型语言模型(LLMs)在深度研究任务中展示了惊人的潜力。然而,当前的方法主要依赖于手工工程化的提示(基于提示工程技术的方法),性能脆弱,或者在受控的检索增强生成(RAG)环境中使用强化学习(基于RAG的方法),这些方法无法捕捉到现实世界交互的复杂性。在本文中,我们介绍了DeepResearcher,这是首个通过在真实世界环境中扩展强化学习(RL),并利用真实的网络搜索交互来端到端训练基于LLM的深度研究代理的全面框架。不同于基于RAG的方法假设必要信息存在于固定语料库中的假设,我们的方法训练代理能够应对开放网络的嘈杂、不结构化和动态的特性。我们实现了一个专门的多代理架构,其中浏览代理从各种网页结构中提取相关信息,并克服了重要的技术挑战。在开放领域的研究任务上进行的广泛实验表明,DeepResearcher在基于提示工程技术的基线上的表现提升了高达28.9个点,相对于基于RAG的RL代理则提升了7.2个点。我们的定性分析揭示了端到端RL训练中出现的认知行为,包括制定计划、从多个来源验证信息、进行自我反思以重新定向研究、并在无法找到最终答案时保持诚实。我们的结果强调,在真实世界的网络环境中进行端到端训练不仅是一个实现细节,而且是开发与现实应用对齐的稳健研究能力的基本要求。我们在https://github.com/GAIR-NLP/DeepResearcher发布了DeepResearcher。