LLM2D

摘要

arXiv:2504.07803v1 交叉类型: cross 摘要：检索增强生成（RAG）已成为通过整合检索机制来提高大型语言模型（LLMs）的事实准确性和上下文相关性的标准范式。然而，现有的评估框架无法提供一种全面的黑盒方法来评估RAG系统，特别是在实际部署场景中。为了解决这一问题，我们引入了SCARF（全面评估RAG框架的系统），这是一种模块化和灵活的评估框架，旨在系统性地基准测试部署中的RAG应用程序。SCARF提供了一种端到端的黑盒评估方法论，使得在不同的RAG框架之间进行有限努力的比较成为可能。我们的框架支持多种部署配置，并在向量数据库和LLM服务策略上实现了自动化测试，生成详细的性能报告。此外，SCARF结合了实际考虑因素，如响应一致性，为研究人员和行业专业人士提供了一个可扩展和可适应的解决方案，用于评估RAG应用程序。通过使用REST APIs接口，我们展示了SCARF如何应用于实际场景，展示了其在评估不同RAG框架和配置方面的灵活性。SCARF可在GitHub仓库中获取。