摘要
arXiv:2407.04903v3 通知类型: replace-cross
摘要:科学图表解释是基于先进视觉语言模型的AI驱动科学助手的核心能力。然而,现有的数据集和基准主要集中在简单图表或来自有限科学领域的其他相对简单的图表。为了解决这一差距,我们从同行评审的《自然通讯》文章中编制了一个全面的数据集,涵盖了72个科学领域,包括需要研究生水平专业知识来解释的复杂可视化,如方案图、显微照片和实验数据。我们在两个基准任务,即图表字幕生成和多项选择上对19个专有和开源模型进行了评估,并进行了人工专家注释。我们的分析揭示了模型在任务挑战和性能差距方面存在显著差异。除了作为基准,该数据集还为大规模训练提供了宝贵资源。通过对我们的任务特定数据进行微调,Qwen2-VL-7B在多项选择评估中的性能优于GPT-4o,甚至优于人类专家。此外,通过对交错的文章和图表数据的持续预训练,显著增强了模型在材料科学等下游任务中的表现。我们已发布了该数据集以支持进一步研究。