LLM2D
ER-RAG: 基于ER的统一异构数据源建模增强RAG
ER-RAG: Enhance RAG with ER-Based Unified Modeling of Heterogeneous Data Sources
作者: Yikuan Xia, Jiazun Chen, Yirui Zhan, Suifeng Zhao, Weipeng Jiang, Chaorui Zhang, Wei Han, Bo Bai, Jun Gao
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06271v1

摘要

arXiv:2504.06271v1 宣告类型:交叉 摘要:大型语言模型(LLMs)在问答(QA)任务上表现出色,检索增强生成(RAG)通过结合来自网页、数据库和知识图等多种来源的外部证据,提升了其精度。然而,当前的RAG方法依赖于针对个体数据源的特定策略,这在低资源或黑盒环境中提出了挑战,并且当证据分散在多个来源时,操作复杂化。为了解决这些局限性,我们提出了一种ER-RAG框架,该框架通过实体-关系(ER)模型统一了异构数据源中的证据整合。ER-RAG通过基于ER的API使用GET和JOIN操作标准化实体检索和关系查询。该框架采用两阶段生成过程:首先,偏好优化模块选择最优的来源;其次,另一个模块基于源模式构建API链。这一统一的方法允许高效微调并在多种数据源之间无缝集成。ER-RAG在2024年KDDCup CRAG挑战赛的三个赛道中均取得了胜利,使用8B LLM骨干取得了与商业RAG流水线相当的性能。与混合竞争对手相比,其LLM得分提高了3.1%,检索速度加快了5.5倍。