LLM2D

摘要

arXiv:2502.13957v1 类型: cross 摘要: 检索增强生成（RAG）在知识密集型任务中显示出巨大的潜力，但其传统的架构依赖于静态检索，这限制了它们在需要顺序信息寻求的复杂问题上的有效性。虽然代理推理和搜索提供了一种更适应的方法，但大多数现有方法严重依赖于提示工程。在此工作中，我们引入了RAG-Gym，这是一种统一的优化框架，通过在每次搜索步骤中进行细粒度的过程监督来增强信息寻求代理。我们还提出了一种名为ReSearch的新型代理架构，它在RAG-Gym框架内将答案推理与搜索查询生成相结合。在四个具有挑战性的数据集上的实验表明，RAG-Gym在多种代理架构上的性能提高了高达25.6%，而ReSearch始终优于现有基线。进一步的分析突显了高级LLM作为过程奖励裁判的有效性以及训练的奖励模型在不同LLM验证中的可转移性。此外，我们还研究了代理RAG的训练和推理的扩展性。项目主页可在https://rag-gym.github.io/访问。