LLM2D

摘要

arXiv:2504.03160v1 公告类型: 新摘要: 具备网络搜索能力的大型语言模型（LLMs）在深度研究任务中展示了惊人的潜力。然而，当前的方法主要依赖于手工工程化的提示（基于提示工程技术的方法），性能脆弱，或者在受控的检索增强生成（RAG）环境中使用强化学习（基于RAG的方法），这些方法无法捕捉到现实世界交互的复杂性。在本文中，我们介绍了DeepResearcher，这是首个通过在真实世界环境中扩展强化学习（RL），并利用真实的网络搜索交互来端到端训练基于LLM的深度研究代理的全面框架。不同于基于RAG的方法假设必要信息存在于固定语料库中的假设，我们的方法训练代理能够应对开放网络的嘈杂、不结构化和动态的特性。我们实现了一个专门的多代理架构，其中浏览代理从各种网页结构中提取相关信息，并克服了重要的技术挑战。在开放领域的研究任务上进行的广泛实验表明，DeepResearcher在基于提示工程技术的基线上的表现提升了高达28.9个点，相对于基于RAG的RL代理则提升了7.2个点。我们的定性分析揭示了端到端RL训练中出现的认知行为，包括制定计划、从多个来源验证信息、进行自我反思以重新定向研究、并在无法找到最终答案时保持诚实。我们的结果强调，在真实世界的网络环境中进行端到端训练不仅是一个实现细节，而且是开发与现实应用对齐的稳健研究能力的基本要求。我们在https://github.com/GAIR-NLP/DeepResearcher发布了DeepResearcher。