LLM2D
DeepInnovation AI:从学术研究到工业专利的AI创新全球数据集
DeepInnovation AI: A Global Dataset Mapping the AI innovation from Academic Research to Industrial Patents
作者: Haixing Gong, Hui Zou, Xingzhou Liang, Shiyuan Meng, Pinlong Cai, Xingcheng Xu, Jingjing Qu
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.09257v4

摘要

arXiv:2503.09257v4 通知类型: 替换交叉 摘要:在飞速发展的人工智能(AI)领域,映射创新模式并理解从研究到应用的有效技术转移是经济增长的关键。然而,现有的数据基础设施存在碎片化、覆盖率不完整和评估能力不足的问题。在这里,我们介绍了 DeepInnovationAI,这是一个全面的全球性数据集,包含三个结构化的文件。DeepPatentAI.csv:包含 2,356,204 个专利记录,附有 8 个领域特定属性。DeepDiveAI.csv:涵盖了 3,511,929 篇学术出版物,附有 13 个元数据字段。这两个数据集利用了大型语言模型、多语言文本分析以及双层 BERT 分类器,以准确识别与 AI 相关的内容,同时利用超图分析来创建稳健的创新指标。此外,DeepCosineAI.csv:通过应用语义向量邻近分析,此文件呈现了约一百万篇论文-专利相似度配对,以增强对理论进步如何转化为商业技术的理解。DeepInnovationAI 使研究者、政策制定者和行业领导者能够预见趋势并识别合作机会。凭借广泛的 temporal 和地理范围,它支持对技术发展模式和国际竞争动态进行详细分析,并建立模拟 AI 创新和技术转移过程的基础。