摘要
自然语言问答 (QA) 数据集在评估大型语言模型 (LLMs) 的能力方面发挥着至关重要的作用,确保其在现实世界应用中的有效性。尽管已经开发了许多 QA 数据集,但缺乏由母语使用者在其本国语言中生成的特定区域数据集。这一差距阻碍了针对区域和文化特性的 LLM 的有效基准测试。此外,它也限制了微调模型的开发。在本研究中,我们提出了一种可扩展的、与语言无关的框架 NativQA,以无缝构建文化和地区对齐的母语 QA 数据集,用于 LLM 评估和调优。我们通过设计一个多语言自然 QA 数据集 \mnqa 来证明所提框架的有效性,该数据集包含约 64k 个手动标注的 QA 对,涵盖七种语言,从高资源到极低资源,基于来自 9 个地区涵盖 18 个主题的母语人士的查询。我们使用 MultiNativQA 数据集对开源和闭源 LLM 进行基准测试。我们还展示了该框架在构建微调数据方面的有效性,尤其是针对低资源和方言丰富的语言。我们将 NativQA 框架和 MultiNativQA 数据集公开提供给社区 (https://nativqa.gitlab.io)。