LLM2D

摘要

arXiv:2503.21729v1 类别: cross 摘要：大型推理模型（LRMs）表现出惊人的推理能力，但主要依赖于参数化的知识，限制了事实的准确性。虽然最近的研究为基于强化学习（RL）的LRMs配备了检索能力，但它们在推理过程中容易过度思考且缺乏鲁棒性，从而降低了在问答（QA）任务中的有效性。为了解决这个问题，我们提出了一种名为ReaRAG的增强事实推理模型，能够在不进行过度迭代的情况下探索多样的查询。我们的解决方案包括一个新颖的数据构建框架，并对推理链长度设定了上限。具体来说，我们首先利用一个LRM生成有目的的思考，然后从预定义的动作空间（搜索和完成）中选择一个动作。对于搜索动作，会执行一个查询以针对RAG引擎，返回的结果作为观察来指导后续的推理步骤。这一过程一直持续到选择完成动作。得益于ReaRAG强烈的推理能力，我们的方法在多跳QA任务中优于现有基线。进一步分析指出，这种方法具有很强的反思能力，能够识别错误并优化其推理路径。我们的研究通过增强LRMs的事实性，同时有效地将稳健的推理集成到检索增强生成（RAG）中。