LLM2D

摘要

arXiv:2502.19546v3 通告类型: 替换摘要：领先的视觉-语言模型（VLMs）在通用互联网内容上进行训练，忽视了科学期刊中丰富的、领域特定的知识。在专业文献上进行训练可能会产出高效率的、任务特定的工具，使生成式AI能够在特异性出版、教育和临床任务上与通用模型相匹敌。我们创建了NeuroPubs，这是一个包含23,000篇神经外科论文的多模态数据集（1.34亿词，78,000对图像-标题对）。使用NeuroPubs，VLMs生成了可发表的图形摘要（100份摘要中有70%），以及与人类撰写的一样难以区分的板式问题（89,587个问题中有54%）。我们利用这些问题训练了拥有340亿参数的VLM——CNS-Obsidian。在一项盲法随机对照试验中，我们的模型在神经外科鉴别诊断上表现出非劣效于当时的最新技术GPT-4o（临床效用：40.62%的投票率 vs. 57.89%，p=0.1150；准确性：59.38% vs. 65.79%，p=0.3797）。我们的试点研究显示，通过对专业特定期刊内容进行训练——而无需大规模互联网数据——生成式AI模型能够产出高性能的学术和临床工具，从而在各个领域实现领域定制化的人工智能。