LLM2D

摘要

arXiv:2502.19546v2 宣告类型: 替换摘要: 领先的视觉-语言模型（VLMs）是在通用互联网内容上训练的，忽视了科学期刊中丰富的领域特定知识。在专门文献上进行训练可以产生高性能的任务特定工具，使生成型人工智能能够在专业出版、教育和临床任务上与通用模型相媲美。我们创建了 NeuroPubs，这是一个包含 23,000 篇神经外科出版物文章（1.34 亿词，78,000 张图/描述对）的多模态数据集。使用 NeuroPubs，VLMs 生成了可发表的图形摘要（100 个摘要中有 70%）和与人工撰写的难以区分的板式问题（89,587 个问题中有 54%）。我们使用这些问题训练了具有 340 亿参数的 CNS-Obsidian VLM。在一项盲法随机对照试验中，我们的模型在神经外科鉴别诊断方面的表现与当时的最先进的 GPT-4o 模型相当（临床效用方面，40.62% 的赞同票 vs. 57.89%，p=0.1150；准确率方面，59.38% vs. 65.79%，p=0.3797）。我们的初步研究演示了如何在没有大规模互联网数据的情况下，训练专门领域期刊内容的生成型人工智能模型，从而产生高性能的学术和临床工具，并在多个领域实现领域定制化的人工智能。