LLM2D

摘要

arXiv:2504.21776v1 文章类型: cross 摘要: 大型推理模型（LRMs），如OpenAI-o1和DeepSeek-R1，展示了令人印象深刻的长期推理能力。然而，它们对静态内部知识的依赖限制了其在复杂、知识密集型任务上的表现，并阻碍了其生成需要综合多种网络信息的全面研究报告的能力。为了解决这一问题，我们提出了一种名为**WebThinker**的深度研究代理，使LRMs能够自主地在网络上搜索信息、导航网页并在推理过程中撰写研究报告。WebThinker集成了一个**深度网络探索器**模块，使LRMs能够在遇到知识缺口时动态地搜索、导航和提取网络信息。此外，它采用了**自主思考-搜索-撰写策略**，使模型能够无缝地在推理、信息收集和报告撰写之间进行实时交互。为了进一步提高研究工具的利用率，我们通过迭代在线直接偏好优化（DPO）提出了一种基于强化学习（RL）的培训策略。在复杂推理基准测试（GPQA、GAIA、WebWalkerQA、HLE）和科学报告生成任务（Glaive）上的广泛实验表明，WebThinker显著优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂场景下的可靠性与适用性，为更强大且多功能的深度研究系统铺平了道路。代码可在https://github.com/RUC-NLPIR/WebThinker获得。