LLM2D
用视觉-语言模型重新利用科学文献
Repurposing the scientific literature with vision-language models
作者: Anton Alyakin, Jaden Stryker, Daniel Alexander Alber, Karl L. Sangwon, Jin Vivian Lee, Brandon Duderstadt, Akshay Save, David Kurland, Spencer Frome, Shrutika Singh, Jeff Zhang, Eunice Yang, Ki Yun Park, Cordelia Orillac, Aly A. Valliani, Sean Neifert, Albert Liu, Aneek Patel, Christopher Livia, Darryl Lau, Ilya Laufer, Peter A. Rozman, Eveline Teresa Hidalgo, Howard Riina, Rui Feng, Todd Hollon, Yindalon Aphinyanaphongs, John G. Golfinos, Laura Snyder, Eric Leuthardt, Douglas Kondziolka, Eric Karl Oermann
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2502.19546v2

摘要

arXiv:2502.19546v2 宣告类型: 替换 摘要: 领先的视觉-语言模型(VLMs)是在通用互联网内容上训练的,忽视了科学期刊中丰富的领域特定知识。在专门文献上进行训练可以产生高性能的任务特定工具,使生成型人工智能能够在专业出版、教育和临床任务上与通用模型相媲美。我们创建了 NeuroPubs,这是一个包含 23,000 篇神经外科出版物文章(1.34 亿词,78,000 张图/描述对)的多模态数据集。使用 NeuroPubs,VLMs 生成了可发表的图形摘要(100 个摘要中有 70%)和与人工撰写的难以区分的板式问题(89,587 个问题中有 54%)。我们使用这些问题训练了具有 340 亿参数的 CNS-Obsidian VLM。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断方面的表现与当时的最先进的 GPT-4o 模型相当(临床效用方面,40.62% 的赞同票 vs. 57.89%,p=0.1150;准确率方面,59.38% vs. 65.79%,p=0.3797)。我们的初步研究演示了如何在没有大规模互联网数据的情况下,训练专门领域期刊内容的生成型人工智能模型,从而产生高性能的学术和临床工具,并在多个领域实现领域定制化的人工智能。