LLM2D
MMSci:一个面向研究生水平的多学科多模态科学理解数据集
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding
作者: Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2407.04903v2

摘要

多模态大型语言模型(MLLM)的快速发展使得人工智能驱动的科学助手越来越可行,其中解读科学图表是一项至关重要的任务。然而,现有的数据集和基准主要集中在基本的图表和有限的科学科目上,缺乏全面的评估。为了解决这个问题,我们从同行评审的开放获取的《自然通讯》文章中整理了一个多模态、多学科的数据集,涵盖72个科学学科。该数据集包含示意图、模拟图像、宏观/微观照片和实验可视化(例如,蛋白质印迹)等图表,这些图表通常需要研究生水平、学科特定的专业知识才能解读。我们开发了科学图表标题生成和多项选择题的基准,在不同的设置下评估了六个专有模型和十多个开源模型。结果突出了这些任务的高度难度以及模型之间显著的性能差距。虽然许多开源模型在多项选择题任务上的表现达到随机水平,但有些模型与专有模型的性能相当。然而,在标题生成任务中,差距更为明显。我们的数据集也提供了宝贵的训练资源。使用我们特定于任务的多模态训练数据微调Qwen2-VL-2B模型,将其多项选择题的准确率提高到与GPT-4o相当的水平,尽管标题生成仍然具有挑战性。使用我们交错的文章和图表数据对MLLM进行持续预训练,增强了其材料生成能力,展示了整合科学知识的潜力。该数据集和基准将被发布以支持进一步的研究。