LLM2D
DeepDiveAI:大规模文献数据中人工智能相关文档的识别
DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
作者: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2408.12871v3

摘要

本文介绍了DeepDiveAI,这是一个专门策划的综合数据集,用于从大型学术文献数据库中识别与人工智能相关的研究论文。该数据集是使用先进的长短期记忆 (LSTM) 模型创建的,该模型在一个二元分类任务上进行训练,以区分与人工智能相关的论文和非人工智能相关的论文。该模型在一个庞大的数据集上进行训练和验证,实现了高精度、高查全率、高召回率和高F1分数。最终的DeepDiveAI数据集包含自1956年达特茅斯会议以来发表的940多万篇与人工智能相关的论文(截至2024年),为分析趋势、主题发展以及人工智能研究在各个学科中的演变提供了重要的资源。