LLM2D

摘要

arXiv:2505.08643v1 通知类型: 新摘要: 收藏增强生成 (RAG) 是现代问答 (QA) 系统的基石，使其能够基于外部知识提供具体的答案。尽管最近的进展主要得益于通用领域数据集，但企业 QA 系统需要能够反映日常支持场景中用户提出的具体、领域特定问题的数据集。至关重要的是，评价端到端 RAG 系统需要包括问题-答案对以及答案来源的具体知识库 (KB) 截图的基准测试。为了满足这一需求，我们引入了 WixQA，这是一个基准套件，其中包括精确基于发布的 KB 语料库的 QA 数据集，从而实现对检索和生成组件的整体评估。WixQA 包含三个源自 Wix.com 客户支持互动并基于公共 Wix Help Center 知识库截图的独特 QA 数据集：(i) WixQA-ExpertWritten，200 条实际用户查询，配以专家撰写的多步答案；(ii) WixQA-Simulated，200 经专家验证的问题-答案对，从中提取自用户对话；以及 (iii) WixQA-Synthetic，包含 6,222 个来自大型语言模型 (LLM) 生成的问题-答案对，每个问题-答案对都系统地来源于知识库中的每篇文章。我们根据 MIT 许可证发布了知识库截图和数据集，并提供了全面的基础线结果，形成了对企业 RAG 系统在现实企业环境中进行评估的独特基准。