LLM2D

摘要

本文介绍了DeepDiveAI，这是一个专门策划的综合数据集，用于从大型学术文献数据库中识别与人工智能相关的研究论文。该数据集是使用先进的长短期记忆 (LSTM) 模型创建的，该模型在一个二元分类任务上进行训练，以区分与人工智能相关的论文和非人工智能相关的论文。该模型在一个庞大的数据集上进行训练和验证，实现了高精度、高查全率、高召回率和高F1分数。最终的DeepDiveAI数据集包含自1956年达特茅斯会议以来发表的940多万篇与人工智能相关的论文（截至2024年），为分析趋势、主题发展以及人工智能研究在各个学科中的演变提供了重要的资源。