摘要
arXiv:2504.03160v4 宣告类型:替换
摘要:配备了网络搜索能力的大语言模型(LLMs)在深入研究任务中展现了令人印象深刻的潜力。然而,当前的方法要么主要依赖于手工工程化的提示(提示工程法),其性能脆弱,要么采用在受控检索增强生成(RAG)环境中基于强化学习的方法(RAG法),这些方法难以捕捉现实世界交互的复杂性。在本文中,我们介绍了DeepResearcher,这是一个全面的框架,通过在具有真实网络搜索互动的现实环境中扩展强化学习(RL)来进行基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的RAG法不同,我们的方法训练代理能够导航开放网络的嘈杂、无结构和动态的特性。我们实现了一个专门的多代理架构,浏览代理从各种网页结构中提取相关信息,并克服了重大技术挑战。在开放域研究任务的广泛实验中,DeepResearcher在提示工程法基线上的表现提高了28.9分,在RAG法RL代理上的表现提高了7.2分。我们定性的分析揭示了端到端RL训练中出现的认知行为,包括制定计划的能力、从多个来源验证信息、进行反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果显示,真实世界网络环境中的端到端训练不仅是实现细节,而是开发与实际应用相一致的强大研究能力的基本要求。我们已在https://github.com/GAIR-NLP/DeepResearcher发布DeepResearcher。