LLM2D

摘要

arXiv:2505.07596v1 Announce Type: cross 摘要：检索增强生成（RAG）是减少大型语言模型（LLMs）幻觉的一种常用策略。虽然强化学习（RL）可以使LLMs成为搜索代理，通过激活检索能力，但现有的RL方法往往未能充分利用其内部知识。这可能导致重复检索、潜在的知识冲突以及推断延迟的增加。为了克服这些限制，一个能够辨别最佳检索时机，并且能够同步整合参数（内部）和检索（外部）知识的高效和适应性搜索代理是迫切需要的。本文介绍了强化内部-外部知识协同推理代理（IKEA），该代理能够识别其自身的知识边界，并优先利用内部知识，仅在内部知识被认为不足时才求助于外部搜索。这些目标是通过一种新型的知识边界感知奖励函数和知识边界感知训练数据集实现的。这些功能是为内部-外部知识协同导向的RL设计的，旨在激励模型提供准确的答案，减少不必要的检索，并在自身知识不足时鼓励适当的外部搜索。在多个知识推理任务上的评估表明，IKEA显著优于基线方法，大幅减少了检索频率，并展现出强大的泛化能力。