LLM2D

摘要

多模态大型语言模型（MLLM）的快速发展使得人工智能驱动的科学助手越来越可行，其中解读科学图表是一项至关重要的任务。然而，现有的数据集和基准主要集中在基本的图表和有限的科学科目上，缺乏全面的评估。为了解决这个问题，我们从同行评审的开放获取的《自然通讯》文章中整理了一个多模态、多学科的数据集，涵盖72个科学学科。该数据集包含示意图、模拟图像、宏观/微观照片和实验可视化（例如，蛋白质印迹）等图表，这些图表通常需要研究生水平、学科特定的专业知识才能解读。我们开发了科学图表标题生成和多项选择题的基准，在不同的设置下评估了六个专有模型和十多个开源模型。结果突出了这些任务的高度难度以及模型之间显著的性能差距。虽然许多开源模型在多项选择题任务上的表现达到随机水平，但有些模型与专有模型的性能相当。然而，在标题生成任务中，差距更为明显。我们的数据集也提供了宝贵的训练资源。使用我们特定于任务的多模态训练数据微调Qwen2-VL-2B模型，将其多项选择题的准确率提高到与GPT-4o相当的水平，尽管标题生成仍然具有挑战性。使用我们交错的文章和图表数据对MLLM进行持续预训练，增强了其材料生成能力，展示了整合科学知识的潜力。该数据集和基准将被发布以支持进一步的研究。