摘要
多模态大型语言模型(MLLM)的快速发展使得人工智能驱动的科学助手越来越可行,其中解读科学图表是一项至关重要的任务。然而,现有的数据集和基准主要集中在基本的图表和有限的科学科目上,缺乏全面的评估。为了解决这个问题,我们从同行评审的开放获取的《自然通讯》文章中整理了一个多模态、多学科的数据集,涵盖72个科学学科。该数据集包含示意图、模拟图像、宏观/微观照片和实验可视化(例如,蛋白质印迹)等图表,这些图表通常需要研究生水平、学科特定的专业知识才能解读。我们开发了科学图表标题生成和多项选择题的基准,在不同的设置下评估了六个专有模型和十多个开源模型。结果突出了这些任务的高度难度以及模型之间显著的性能差距。虽然许多开源模型在多项选择题任务上的表现达到随机水平,但有些模型与专有模型的性能相当。然而,在标题生成任务中,差距更为明显。我们的数据集也提供了宝贵的训练资源。使用我们特定于任务的多模态训练数据微调Qwen2-VL-2B模型,将其多项选择题的准确率提高到与GPT-4o相当的水平,尽管标题生成仍然具有挑战性。使用我们交错的文章和图表数据对MLLM进行持续预训练,增强了其材料生成能力,展示了整合科学知识的潜力。该数据集和基准将被发布以支持进一步的研究。