摘要
arXiv:2504.20119v1 类别: cross
摘要:检索增强生成(RAG)在近年来取得了显著进步。RAG 系统涉及多个组件——如索引、检索和生成——以及许多其他参数,这为系统的系统性评估和质量提升带来了重大挑战。先前的研究指出,评估 RAG 系统对于记录进展、比较配置以及识别适用于特定领域的有效方法至关重要。本研究系统地回顾了 63 篇学术文章,提供了对最先进的 RAG 评估方法的全面概述,重点关注四个关键领域:数据集、检索器、索引和数据库,以及生成器组件。我们观察到利用能够生成评估数据集并进行评估的大型语言模型(LLM),可以自动化评估 RAG 系统的每个组件的可行性。此外,我们发现进一步的实际研究对于向企业提供明确的指导是非常必要的,即在实施和评估 RAG 系统时应该做些什么和不应该做些什么。通过综合关键 RAG 组件的评估方法,强调为基准测试创建和适应特定领域的数据集,我们促进了系统性评估方法的发展,并提高了 RAG 系统评估严谨性的改进。此外,通过分析利用 LLM 的自动化方法和人类判断之间的互动,我们促进了自动化与人类输入之间平衡的讨论,澄清了它们各自的贡献、局限性和挑战,以实现稳健和可靠的评估。