LLM2D

摘要

arXiv:2502.06205v1 类别: cross 摘要: 检索增强生成（RAG）系统面临的一个基本挑战是独立开发的检索器和大型语言模型（LLMs）之间的对齐问题。现有的方法通常涉及修改其中一种组件或引入简单的中间模块，这导致了实际限制和次优性能。受人类搜索行为的启发——通常涉及提出搜索查询和审查文档的来回过程，我们提出了C-3PO，一种以代理为中心的框架，通过一个轻量级的多Agent系统促进了检索器和LLMs之间的通信。我们的框架实现了三个专门的代理，这些代理在无需修改检索器和LLMs的情况下协同优化整个RAG管道。这些代理共同评估检索的需要，生成有效的查询，并选择适合LLMs的信息。为了实现有效的多Agent协调，我们开发了一种树结构的展开方法，用于强化学习中的奖励信用分配。在领域内和领域外场景中的广泛实验表明，C-3PO在保持插拔灵活性和优越的泛化能力的同时，显著增强了RAG性能。