摘要
arXiv:2502.14759v1 公告类型: cross
摘要: 回忆增强生成 (RAG) 已经成为一种通过减少对静态知识的依赖并提高答案真实性来增强大型语言模型 (LLMs) 的方法。RAG 通过检索相关上下文片段并基于它们生成答案。尽管 RAG 在工业应用中越来越受欢迎,但对其组件的系统性探索仍然不足,尤其是关于提供的上下文的理想大小以及基底 LLM 和检索方法的选择。为了帮助指导稳健 RAG 系统的发展,我们评估了各种上下文大小、BM25 和语义搜索作为检索方法,以及八种基底 LLM。我们离开了通常的 RAG 评估方法,使用短答案,而是探索了更具挑战性的长形式问答问题,在两个领域中,一个好的答案必须利用整个上下文。我们的研究结果表明,最终的问答性能随着最多 15 个片段的增加而稳步提高,但在那之后趋于停滞甚至下降。最后,我们展示了不同的通用型 LLM 在生物医学领域优于百科全书领域,而且在大型文集中进行开放领域证据检索是具有挑战性的。