摘要
arXiv:2502.13957v1 类型: cross
摘要: 检索增强生成(RAG)在知识密集型任务中显示出巨大的潜力,但其传统的架构依赖于静态检索,这限制了它们在需要顺序信息寻求的复杂问题上的有效性。虽然代理推理和搜索提供了一种更适应的方法,但大多数现有方法严重依赖于提示工程。在此工作中,我们引入了RAG-Gym,这是一种统一的优化框架,通过在每次搜索步骤中进行细粒度的过程监督来增强信息寻求代理。我们还提出了一种名为ReSearch的新型代理架构,它在RAG-Gym框架内将答案推理与搜索查询生成相结合。在四个具有挑战性的数据集上的实验表明,RAG-Gym在多种代理架构上的性能提高了高达25.6%,而ReSearch始终优于现有基线。进一步的分析突显了高级LLM作为过程奖励裁判的有效性以及训练的奖励模型在不同LLM验证中的可转移性。此外,我们还研究了代理RAG的训练和推理的扩展性。项目主页可在https://rag-gym.github.io/访问。