摘要
arXiv:2505.08643v1 通知类型: 新
摘要: 收藏增强生成 (RAG) 是现代问答 (QA) 系统的基石,使其能够基于外部知识提供具体的答案。尽管最近的进展主要得益于通用领域数据集,但企业 QA 系统需要能够反映日常支持场景中用户提出的具体、领域特定问题的数据集。至关重要的是,评价端到端 RAG 系统需要包括问题-答案对以及答案来源的具体知识库 (KB) 截图的基准测试。为了满足这一需求,我们引入了 WixQA,这是一个基准套件,其中包括精确基于发布的 KB 语料库的 QA 数据集,从而实现对检索和生成组件的整体评估。WixQA 包含三个源自 Wix.com 客户支持互动并基于公共 Wix Help Center 知识库截图的独特 QA 数据集:(i) WixQA-ExpertWritten,200 条实际用户查询,配以专家撰写的多步答案;(ii) WixQA-Simulated,200 经专家验证的问题-答案对,从中提取自用户对话;以及 (iii) WixQA-Synthetic,包含 6,222 个来自大型语言模型 (LLM) 生成的问题-答案对,每个问题-答案对都系统地来源于知识库中的每篇文章。我们根据 MIT 许可证发布了知识库截图和数据集,并提供了全面的基础线结果,形成了对企业 RAG 系统在现实企业环境中进行评估的独特基准。