摘要
arXiv:2501.19353v1 交叉类型:公告
摘要:自2021年SCICAP数据集发布以来,研究界在为学术文章中的科学图表生成描述方面取得了显著进展。2023年,首届SCICAP挑战赛举行,邀请全球团队使用扩大的SCICAP数据集,开发用于多种学术领域各类图表生成描述的模型。同时,文本生成模型快速发展,涌现出许多强大且预训练的大规模多模态模型(LMMs),它们在各种视觉和语言任务上展现了令人印象深刻的性能。本文概述了首届SCICAP挑战赛的情况,并详细描述了各种模型在其中的表现,捕捉了该领域的当前状态。我们发现,专业编辑普遍更偏好由GPT-4V生成的图表描述,而其他所有模型生成的描述甚至作者原创的描述都逊色于此。在这一关键发现的基础上,我们进行了详细分析,以回答这个问题:高级LMMs是否解决了为科学图表生成描述的任务?