LLM2D
用视觉语言模型重整科学文献
Repurposing the scientific literature with vision-language models
作者: Anton Alyakin, Jaden Stryker, Daniel Alexander Alber, Karl L. Sangwon, Jin Vivian Lee, Brandon Duderstadt, Akshay Save, David Kurland, Spencer Frome, Shrutika Singh, Jeff Zhang, Eunice Yang, Ki Yun Park, Cordelia Orillac, Aly A. Valliani, Sean Neifert, Albert Liu, Aneek Patel, Christopher Livia, Darryl Lau, Ilya Laufer, Peter A. Rozman, Eveline Teresa Hidalgo, Howard Riina, Rui Feng, Todd Hollon, Yindalon Aphinyanaphongs, John G. Golfinos, Laura Snyder, Eric Leuthardt, Douglas Kondziolka, Eric Karl Oermann
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2502.19546v3

摘要

arXiv:2502.19546v3 通告类型: 替换 摘要:领先的视觉-语言模型(VLMs)在通用互联网内容上进行训练,忽视了科学期刊中丰富的、领域特定的知识。在专业文献上进行训练可能会产出高效率的、任务特定的工具,使生成式AI能够在特异性出版、教育和临床任务上与通用模型相匹敌。我们创建了NeuroPubs,这是一个包含23,000篇神经外科论文的多模态数据集(1.34亿词,78,000对图像-标题对)。使用NeuroPubs,VLMs生成了可发表的图形摘要(100份摘要中有70%),以及与人类撰写的一样难以区分的板式问题(89,587个问题中有54%)。我们利用这些问题训练了拥有340亿参数的VLM——CNS-Obsidian。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断上表现出非劣效于当时的最新技术GPT-4o(临床效用:40.62%的投票率 vs. 57.89%,p=0.1150;准确性:59.38% vs. 65.79%,p=0.3797)。我们的试点研究显示,通过对专业特定期刊内容进行训练——而无需大规模互联网数据——生成式AI模型能够产出高性能的学术和临床工具,从而在各个领域实现领域定制化的人工智能。