摘要
arXiv:2505.05232v1 通知类型: 新
摘要: 化学文献的迅速扩展给研究人员高效获取专业领域知识带来了重大挑战。为了支持针对化学领域的自然语言处理(NLP)的发展,我们介绍了ChemRxivQuest,这是一个包含970个高质量问答(QA)对的数据集,这些问答对源自155篇来自17个化学子领域的ChemRxiv预印本。每个QA对都明确链接到其原始文本段落,以确保可追溯性和上下文准确性。ChemRxivQuest是通过结合光学字符识别(OCR)、基于GPT-4o的问答生成以及模糊匹配技术进行答案验证的自动化管道构建的。该数据集侧重于概念性、机制性、应用性和实验性问题,使其实现在检索型问答系统、搜索引擎开发以及针对特定领域的大型语言模型微调等方面的应用。我们分析了该数据集的结构、覆盖范围和局限性,并提出了扩展和专家验证的未来方向。ChemRxivQuest为化学NLP研究、教育和工具开发提供了一个基础资源。