摘要
arXiv:2502.19546v3 通告类型: 替换
摘要:领先的视觉-语言模型(VLMs)在通用互联网内容上进行训练,忽视了科学期刊中丰富的、领域特定的知识。在专业文献上进行训练可能会产出高效率的、任务特定的工具,使生成式AI能够在特异性出版、教育和临床任务上与通用模型相匹敌。我们创建了NeuroPubs,这是一个包含23,000篇神经外科论文的多模态数据集(1.34亿词,78,000对图像-标题对)。使用NeuroPubs,VLMs生成了可发表的图形摘要(100份摘要中有70%),以及与人类撰写的一样难以区分的板式问题(89,587个问题中有54%)。我们利用这些问题训练了拥有340亿参数的VLM——CNS-Obsidian。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断上表现出非劣效于当时的最新技术GPT-4o(临床效用:40.62%的投票率 vs. 57.89%,p=0.1150;准确性:59.38% vs. 65.79%,p=0.3797)。我们的试点研究显示,通过对专业特定期刊内容进行训练——而无需大规模互联网数据——生成式AI模型能够产出高性能的学术和临床工具,从而在各个领域实现领域定制化的人工智能。