LLM2D

摘要

arXiv:2503.19470v1 宣布类型: 新摘要: 大型语言模型（LLMs）在推理方面展示了令人瞩目的能力，如OpenAI-o1和DeepSeek-R1的成功所示。然而，将推理与外部搜索过程集成仍然具有挑战性，特别是在处理需要多步检索的复杂多跳问题时。我们提出了一种名为ReSearch的新型框架，该框架通过强化学习训练LLMs进行搜索推理，无需使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的核心组件，何时以及如何执行搜索由基于文本的思考指导，搜索结果随后影响进一步的推理。我们使用Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型训练ReSearch，并进行了广泛的实验。尽管仅使用一个数据集进行训练，但我们的模型在各种基准测试中表现出强大的通用性。分析表明，在强化学习过程中，ReSearch自然地诱发了诸如反思和自我修正等高级推理能力。