摘要
arXiv:2409.13694v1 公告类型: 交叉 摘要: 检索增强生成(RAG)通过集成检索机制增强了生成模型,使这些模型能够访问和利用外部知识源。尽管RAG具有优势,但在有效处理现实世界查询和减少幻觉方面仍面临重大挑战。KDD Cup 2024 CRAG竞赛通过将网页和模拟API作为知识源,增加了解析HTML的复杂性,从而将这些问题置于前沿。本文提出了一种新的RAG基准,旨在应对这些挑战。我们的工作提供了一套全面的实验结果,为RAG研究提供了宝贵的见解。我们全面考察了RAG过程,包括知识源选择、检索、组织和推理。研究的关键发现包括使用代理进行自动化知识源选择的影响以及噪声块对RAG推理的影响。此外,我们还进行了详细的实验,分析了各种超参数对RAG性能的影响。为了支持进一步研究,我们已将结果、相关代码和解析后的CRAG数据集公开发布,为RAG方法的发展和该领域未来工作的基础奠定了坚实的基础。