LLM2D

摘要

arXiv:2503.21729v2 宣告类型: 替换交叉摘要: 大型推理模型（LRMs）展现出卓越的推理能力，但主要依赖参数化知识，限制了事实的准确性。虽然最近的研究让基于强化学习（RL）的LRMs具备检索能力，但它们在推理过程中容易出现过度推理，并且推理的鲁棒性不足，降低了它们在问答（QA）任务中的有效性。为了解决这一问题，我们提出了一种名为ReaRAG的事实增强推理模型，该模型在不进行过多迭代的情况下探索多样的查询。我们的解决方案包括一种新颖的数据构建框架，该框架设定了推理链的最大长度上限。具体来说，我们首先利用LRM生成有目的的思考，然后从预定义的动作空间（搜索和结束）中选择一个动作。对于搜索动作，执行对RAG引擎的查询，查询结果作为观察结果返回，以指导后续的推理步骤。此过程一直持续到选择结束动作为止。得益于ReaRAG强大的推理能力，我们的方法在多跳问答任务中优于现有基线。进一步的分析突显了其强大的反思能力，能够识别错误并优化其推理轨迹。我们的研究提高了LRMs的事实准确性，并有效地将鲁棒推理集成到检索增强生成（RAG）中。