摘要
arXiv:2408.12871v5 通知类型: 替换
摘要:在本文中,我们提出了一种自动分类来自大规模文献数据库的AI相关文档的方法,从而创建了一个名为DeepDiveAI的AI相关文献数据集。数据集的构建方法结合了专家知识与先进模型的能力,跨越两个全球阶段。在第一阶段,使用专家精心编制的分类数据集来训练一个LSTM模型,用于对大规模数据集中的粗粒度AI相关记录进行分类。在第二阶段,我们使用Qwen2.5 Plus对粗粒度AI相关的10%记录进行注解,然后使用这些数据训练一个BERT二元分类器。这一步骤进一步细化了粗粒度的AI相关记录集,以获得最终的DeepDiveAI数据集。评估结果表明,整个工作流程可以从大规模数据集中高效且准确地识别AI相关的文献。