摘要
arXiv:2504.03160v3 宣告类型: 替换
摘要: 配备有网络搜索能力的大语言模型(LLMs)在深度研究任务中展现了令人印象深刻的潜力。然而,当前的方法主要依赖于手工工程化的提示(基于提示工程的方法)以实现脆弱的表现,或者在受控的检索增强生成(RAG)环境中通过强化学习进行(基于RAG的方法),而这种方法在捕捉现实世界交互的复杂性方面存在不足。在本文中,我们介绍了DeepResearcher,这是一个全面的框架,用于通过在现实世界环境中放大强化学习(RL)来对基于LLM的深度研究代理进行端到端训练,其中包括真实的网络搜索交互。与基于RAG的方法假设所有必要的信息都存在于固定数据库中不同,我们的方法训练代理导航开放网络的嘈杂、不结构化和动态的特性。我们实现了一个专门的多代理架构,其中浏览代理从各种网页结构中提取相关信息,并克服了重大技术挑战。在开放领域研究任务上的广泛实验表明,DeepResearcher在基于提示工程的基线方法上取得了多达28.9分的显著改进,并且在基于RAG的RL代理上取得了多达7.2分的改进。我们定性的分析揭示了端到端RL训练中出现的认知行为,包括制定计划、从多个来源交叉验证信息、进行自我反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果强调了在现实世界网络环境中进行端到端训练不仅仅是实现细节,而是开发与现实世界应用相一致的强大研究能力的基本要求。我们在https://github.com/GAIR-NLP/DeepResearcher 上发布了DeepResearcher。