摘要
arXiv:2505.02811v1 声明类型: 新
摘要: 语言检索增强生成 (RAG) 已经展示了增强语言模型知识和减少 AI 生成幻觉的强大能力,推动了其广泛应用。然而,需要多轮检索的复杂任务仍然具有挑战性,早期尝试往往过于乐观,缺乏良好的自我怀疑感。当前的多轮 RAG 系统可能在已经检索到足够信息后仍然继续搜索,或者在没有足够信息或知识的情况下提供错误的答案。现有的解决方案要么需要大量的昂贵的人工标注监督数据,要么导致表现不佳。
本文旨在通过引入新的框架 **SIM-RAG** 来解决这些限制,以显式地增强 RAG 系统的自我意识和多轮检索能力。为了训练 SIM-RAG,我们首先让 RAG 系统自我练习多轮检索,通过增加中间内心推理步骤来扩展现有的问答对,生成合成训练数据。对于每一对,系统可能会探索多种检索路径,如果它们达到正确答案则被标记为成功,否则标记为失败。使用这种数据,我们训练了一个轻量级的信息充分性评论者。在推理时,评论者评估 RAG 系统在每一轮是否检索到了足够信息,通过上下文强化学习指导检索决策,提高系统级别的自我意识。
跨多个知名的 RAG 基准实验表明,SIM-RAG 是一个有效的多轮 RAG 解决方案。此外,该框架具有系统效率,为其添加了一个轻量级组件,而无需对现有大语言模型或搜索引擎进行修改,同时具有数据效率,无需昂贵的人工标注中间检索过程监督数据。