LLM2D

摘要

arXiv:2504.03160v4 宣告类型：替换摘要：配备了网络搜索能力的大语言模型（LLMs）在深入研究任务中展现了令人印象深刻的潜力。然而，当前的方法要么主要依赖于手工工程化的提示（提示工程法），其性能脆弱，要么采用在受控检索增强生成（RAG）环境中基于强化学习的方法（RAG法），这些方法难以捕捉现实世界交互的复杂性。在本文中，我们介绍了DeepResearcher，这是一个全面的框架，通过在具有真实网络搜索互动的现实环境中扩展强化学习（RL）来进行基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的RAG法不同，我们的方法训练代理能够导航开放网络的嘈杂、无结构和动态的特性。我们实现了一个专门的多代理架构，浏览代理从各种网页结构中提取相关信息，并克服了重大技术挑战。在开放域研究任务的广泛实验中，DeepResearcher在提示工程法基线上的表现提高了28.9分，在RAG法RL代理上的表现提高了7.2分。我们定性的分析揭示了端到端RL训练中出现的认知行为，包括制定计划的能力、从多个来源验证信息、进行反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果显示，真实世界网络环境中的端到端训练不仅是实现细节，而是开发与实际应用相一致的强大研究能力的基本要求。我们已在https://github.com/GAIR-NLP/DeepResearcher发布DeepResearcher。