摘要
arXiv:2502.13668v1 交叉类型: cross
摘要: 我们介绍了PeerQA,一个真实世界的、科学的、文档级别的问答数据集。PeerQA的问题来源于同行评审,其中包含审稿人在全面检查科学文章时提出的问题。这些问题由每篇文章的原作者标注了答案。该数据集包含来自208篇学术文章的579个问答对,主要来自机器学习和自然语言处理领域,还包括来自地质科学和公共卫生等其他科学社区的子集。PeerQA支持开发实用问答系统的三个关键任务:证据检索、无法回答的问题分类以及答案生成。我们对收集的数据集进行了详细分析,并进行了实验以建立所有三个任务的基线系统。我们的实验和分析揭示了在文档级别检索中去语境化的需求,在此我们发现即使是简单的去语境化方法也能够在各种架构中一致地提高检索性能。在答案生成方面,PeerQA为长上下文建模提供了具有挑战性的基准,因为这些文章的平均大小为12k个标记。我们的代码和数据可在https://github.com/UKPLab/peerqa获得。