LLM2D

摘要

arXiv:2501.19353v2 通知类型: 替换交叉摘要: 自2021年SCICAP数据集发布以来，研究界在生成学术文章中科学图表的描述中取得了显著进展。2023年，首次举办了SCICAP挑战，邀请全球团队使用扩展的SCICAP数据集，开发适用于各种学术领域的不同图表类型的描述模型。与此同时，文本生成模型取得了快速进步，许多强大的预训练大模型（LMMs）涌现出来，在各种视觉和语言任务中展示了令人印象深刻的性能。本文概述了首次SCICAP挑战的情况，并详细描述了各种模型在该数据集上的表现，捕捉到该领域的现状。我们发现，专业编辑普遍更偏好GPT-4V生成的图表描述，而非其他所有模型甚至作者最初撰写的描述。基于这一关键发现，我们进行了详细的分析，以解决这个问题：先进的LMMs是否已解决科学图表描述任务？