LLM2D
WebThinker: 为大型推理模型赋能深度研究能力
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
作者: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21776v1

摘要

arXiv:2504.21776v1 文章类型: cross 摘要: 大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,展示了令人印象深刻的长期推理能力。然而,它们对静态内部知识的依赖限制了其在复杂、知识密集型任务上的表现,并阻碍了其生成需要综合多种网络信息的全面研究报告的能力。为了解决这一问题,我们提出了一种名为**WebThinker**的深度研究代理,使LRMs能够自主地在网络上搜索信息、导航网页并在推理过程中撰写研究报告。WebThinker集成了一个**深度网络探索器**模块,使LRMs能够在遇到知识缺口时动态地搜索、导航和提取网络信息。此外,它采用了**自主思考-搜索-撰写策略**,使模型能够无缝地在推理、信息收集和报告撰写之间进行实时交互。为了进一步提高研究工具的利用率,我们通过迭代在线直接偏好优化(DPO)提出了一种基于强化学习(RL)的培训策略。在复杂推理基准测试(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的广泛实验表明,WebThinker显著优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂场景下的可靠性与适用性,为更强大且多功能的深度研究系统铺平了道路。代码可在https://github.com/RUC-NLPIR/WebThinker获得。