摘要
arXiv:2501.19353v2 通知类型: 替换交叉
摘要: 自2021年SCICAP数据集发布以来,研究界在生成学术文章中科学图表的描述中取得了显著进展。2023年,首次举办了SCICAP挑战,邀请全球团队使用扩展的SCICAP数据集,开发适用于各种学术领域的不同图表类型的描述模型。与此同时,文本生成模型取得了快速进步,许多强大的预训练大模型(LMMs)涌现出来,在各种视觉和语言任务中展示了令人印象深刻的性能。本文概述了首次SCICAP挑战的情况,并详细描述了各种模型在该数据集上的表现,捕捉到该领域的现状。我们发现,专业编辑普遍更偏好GPT-4V生成的图表描述,而非其他所有模型甚至作者最初撰写的描述。基于这一关键发现,我们进行了详细的分析,以解决这个问题:先进的LMMs是否已解决科学图表描述任务?