LLM2D

摘要

arXiv:2408.12871v5 通知类型: 替换摘要：在本文中，我们提出了一种自动分类来自大规模文献数据库的AI相关文档的方法，从而创建了一个名为DeepDiveAI的AI相关文献数据集。数据集的构建方法结合了专家知识与先进模型的能力，跨越两个全球阶段。在第一阶段，使用专家精心编制的分类数据集来训练一个LSTM模型，用于对大规模数据集中的粗粒度AI相关记录进行分类。在第二阶段，我们使用Qwen2.5 Plus对粗粒度AI相关的10%记录进行注解，然后使用这些数据训练一个BERT二元分类器。这一步骤进一步细化了粗粒度的AI相关记录集，以获得最终的DeepDiveAI数据集。评估结果表明，整个工作流程可以从大规模数据集中高效且准确地识别AI相关的文献。