摘要
arXiv:2502.19546v2 宣告类型: 替换
摘要: 领先的视觉-语言模型(VLMs)是在通用互联网内容上训练的,忽视了科学期刊中丰富的领域特定知识。在专门文献上进行训练可以产生高性能的任务特定工具,使生成型人工智能能够在专业出版、教育和临床任务上与通用模型相媲美。我们创建了 NeuroPubs,这是一个包含 23,000 篇神经外科出版物文章(1.34 亿词,78,000 张图/描述对)的多模态数据集。使用 NeuroPubs,VLMs 生成了可发表的图形摘要(100 个摘要中有 70%)和与人工撰写的难以区分的板式问题(89,587 个问题中有 54%)。我们使用这些问题训练了具有 340 亿参数的 CNS-Obsidian VLM。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断方面的表现与当时的最先进的 GPT-4o 模型相当(临床效用方面,40.62% 的赞同票 vs. 57.89%,p=0.1150;准确率方面,59.38% vs. 65.79%,p=0.3797)。我们的初步研究演示了如何在没有大规模互联网数据的情况下,训练专门领域期刊内容的生成型人工智能模型,从而产生高性能的学术和临床工具,并在多个领域实现领域定制化的人工智能。