LLM2D

摘要

arXiv:2505.02811v1 声明类型: 新摘要: 语言检索增强生成 (RAG) 已经展示了增强语言模型知识和减少 AI 生成幻觉的强大能力，推动了其广泛应用。然而，需要多轮检索的复杂任务仍然具有挑战性，早期尝试往往过于乐观，缺乏良好的自我怀疑感。当前的多轮 RAG 系统可能在已经检索到足够信息后仍然继续搜索，或者在没有足够信息或知识的情况下提供错误的答案。现有的解决方案要么需要大量的昂贵的人工标注监督数据，要么导致表现不佳。本文旨在通过引入新的框架 **SIM-RAG** 来解决这些限制，以显式地增强 RAG 系统的自我意识和多轮检索能力。为了训练 SIM-RAG，我们首先让 RAG 系统自我练习多轮检索，通过增加中间内心推理步骤来扩展现有的问答对，生成合成训练数据。对于每一对，系统可能会探索多种检索路径，如果它们达到正确答案则被标记为成功，否则标记为失败。使用这种数据，我们训练了一个轻量级的信息充分性评论者。在推理时，评论者评估 RAG 系统在每一轮是否检索到了足够信息，通过上下文强化学习指导检索决策，提高系统级别的自我意识。跨多个知名的 RAG 基准实验表明，SIM-RAG 是一个有效的多轮 RAG 解决方案。此外，该框架具有系统效率，为其添加了一个轻量级组件，而无需对现有大语言模型或搜索引擎进行修改，同时具有数据效率，无需昂贵的人工标注中间检索过程监督数据。