LLM2D

摘要

arXiv:2504.03160v2 宣告类型: 替换摘要：配备网络搜索能力的大语言模型（LLMs）在深度研究任务中展示了出色的潜力。然而，当前的方法主要依赖于人工工程化提示（提示工程化方法）且表现脆弱，或者在受控的检索增强生成（RAG）环境中使用强化学习（RAG方法），这种方法无法捕捉到真实世界交互的复杂性。在本文中，我们引入了DeepResearcher，这是首个通过在真实世界环境中使用强化学习（RL）来训练基于大语言模型的端到端深度研究代理的全面框架，该框架包含真实的网络搜索交互。不同于RAG方法假设所有必要信息都存在于固定语料库中的做法，我们的方法训练代理以应对开放网络的嘈杂、非结构化和动态特性。我们实现了一个专门的多代理架构，其中浏览代理从各种网页结构中提取相关信息并克服了重大技术挑战。在开放领域的研究任务上的广泛实验表明，DeepResearcher相对于基于提示工程化的方法提高了28.9分，相对于基于RAG的RL代理提高了7.2分。我们的定性分析揭示了端到端RL训练中出现的认知行为，包括制定计划的能力、从多个来源验证信息的能力、进行自我反思以重新定向研究的能力以及在无法找到确切答案时保持诚实的能力。我们的结果表明，端到端在真实世界网络环境中的训练不仅是实现细节，而是开发与实际应用相一致的强大研究能力的基本要求。我们已将DeepResearcher发布在https://github.com/GAIR-NLP/DeepResearcher。