LLM2D
DeepDiveAI: 在大规模文献数据中识别与AI相关的文档
DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
作者: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2408.12871v5

摘要

arXiv:2408.12871v5 通知类型: 替换 摘要:在本文中,我们提出了一种自动分类来自大规模文献数据库的AI相关文档的方法,从而创建了一个名为DeepDiveAI的AI相关文献数据集。数据集的构建方法结合了专家知识与先进模型的能力,跨越两个全球阶段。在第一阶段,使用专家精心编制的分类数据集来训练一个LSTM模型,用于对大规模数据集中的粗粒度AI相关记录进行分类。在第二阶段,我们使用Qwen2.5 Plus对粗粒度AI相关的10%记录进行注解,然后使用这些数据训练一个BERT二元分类器。这一步骤进一步细化了粗粒度的AI相关记录集,以获得最终的DeepDiveAI数据集。评估结果表明,整个工作流程可以从大规模数据集中高效且准确地识别AI相关的文献。