摘要
arXiv:2503.21729v2 宣告类型: 替换交叉
摘要: 大型推理模型(LRMs)展现出卓越的推理能力,但主要依赖参数化知识,限制了事实的准确性。虽然最近的研究让基于强化学习(RL)的LRMs具备检索能力,但它们在推理过程中容易出现过度推理,并且推理的鲁棒性不足,降低了它们在问答(QA)任务中的有效性。为了解决这一问题,我们提出了一种名为ReaRAG的事实增强推理模型,该模型在不进行过多迭代的情况下探索多样的查询。我们的解决方案包括一种新颖的数据构建框架,该框架设定了推理链的最大长度上限。具体来说,我们首先利用LRM生成有目的的思考,然后从预定义的动作空间(搜索和结束)中选择一个动作。对于搜索动作,执行对RAG引擎的查询,查询结果作为观察结果返回,以指导后续的推理步骤。此过程一直持续到选择结束动作为止。得益于ReaRAG强大的推理能力,我们的方法在多跳问答任务中优于现有基线。进一步的分析突显了其强大的反思能力,能够识别错误并优化其推理轨迹。我们的研究提高了LRMs的事实准确性,并有效地将鲁棒推理集成到检索增强生成(RAG)中。