摘要
随着文化遗产领域越来越多地采用检索增强生成 (RAG) 等技术来提供更个性化的搜索体验并实现与馆藏数据的对话,对专业评估数据集的需求不断增长。虽然端到端系统测试至关重要,但评估单个组件同样重要。我们关注最终的回答任务,该任务非常适合机器阅读理解 (MRC)。尽管现有的 MRC 数据集涵盖了通用领域,但它们缺乏文化遗产信息所需的特定性。不幸的是,对于大多数遗产机构来说,手动创建此类数据集的成本过高。本文提出了一种经济高效的方法,利用来自合成偏好数据的强化学习从人类反馈 (RLHF) 生成更难的特定领域 MRC 数据集。我们的方法利用现有问答模型在 SQuAD 子集上的性能来创建难度指标,假设更具挑战性的问题被正确回答的频率较低。这项研究贡献了以下内容: (1) 使用 PPO 和合成数据提高问题难度的 методология; (2) 该方法有效性的实证证据,包括人工评估; (3) 深入的错误分析和对涌现现象的研究; (4) 开源代码库和三套 llama-2-chat 适配器,用于复现和适应。