摘要
基于检索增强生成的问答 (RAG-QA) 是自然语言处理领域的重要研究课题,在现实世界中有着广泛的应用。然而,现有的用于此任务的大多数数据集要么使用单个源语料库构建,要么包含简短的抽取式答案,这不足以评估基于大型语言模型 (LLM) 的 RAG-QA 系统在跨域泛化方面的性能。为了解决这些局限性,我们创建了长篇鲁棒问答 (LFRQA) 数据集,该数据集包含人类撰写、将来自多个文档的简短抽取式答案整合到一个连贯的叙述中的长篇答案,涵盖 26,000 个查询和跨越七个不同领域的庞大语料库。我们进一步提出了 RAG-QA 竞技场,通过使用 LLM 作为评估器,直接比较模型生成的答案与 LFRQA 的答案。我们通过大量实验表明,RAG-QA 竞技场和人类对答案质量的判断高度相关。此外,只有 41.3% 的最具竞争力的 LLM 答案优于 LFRQA 的答案,这表明 RAG-QA 竞技场是一个具有挑战性的评估平台,可用于未来的研究。