LLM2D

摘要

arXiv:2504.08744v1 类型: cross 摘要: ExpertRAG 是一种新的理论框架，将 Mixture-of-Experts (MoE) 架构与 Retrieval Augmented Generation (RAG) 结合起来，以提高知识密集型语言建模的效率和准确性。我们提出了一种动态检索门控机制与专家路由相结合，使模型能够根据查询的需求有选择地咨询外部知识库或依赖于内部的专门专家。论文概述了 ExpertRAG 的理论基础，包括一种概率公式，将检索和专家选择视为潜变量决策，并对其实现计算效率和知识利用效率进行了数学上的解释。我们推导出了量化选择性检索预期计算成本节省和稀疏专家利用带来的容量增益的公式。比较分析将 ExpertRAG 与标准 RAG（始终开启检索）以及纯 MoE 模型（例如 Switch Transformer、Mixtral）进行对比，以突显其在参数化知识和非参数化检索之间的独特平衡。我们也提出了实验验证策略，提出了基准和评估协议来测试 ExpertRAG 在事实回忆、泛化和推理效率方面的性能。虽然提出的框架主要基于理论，但它得到了 RAG 和 MoE 前期工作的见解支持，并通过充分利用两种范式的优点，旨在提供更加实际、高效和适应性的生成。总之，ExpertRAG 通过对大规模和增强语言模型进行详细分析和支持其经验验证的路线图，提供了一种新的视角。