摘要
arXiv:2504.07803v1 交叉类型: cross
摘要:检索增强生成(RAG)已成为通过整合检索机制来提高大型语言模型(LLMs)的事实准确性和上下文相关性的标准范式。然而,现有的评估框架无法提供一种全面的黑盒方法来评估RAG系统,特别是在实际部署场景中。为了解决这一问题,我们引入了SCARF(全面评估RAG框架的系统),这是一种模块化和灵活的评估框架,旨在系统性地基准测试部署中的RAG应用程序。SCARF提供了一种端到端的黑盒评估方法论,使得在不同的RAG框架之间进行有限努力的比较成为可能。我们的框架支持多种部署配置,并在向量数据库和LLM服务策略上实现了自动化测试,生成详细的性能报告。此外,SCARF结合了实际考虑因素,如响应一致性,为研究人员和行业专业人士提供了一个可扩展和可适应的解决方案,用于评估RAG应用程序。通过使用REST APIs接口,我们展示了SCARF如何应用于实际场景,展示了其在评估不同RAG框架和配置方面的灵活性。SCARF可在GitHub仓库中获取。