LLM2D

摘要

arXiv:2501.19353v1 交叉类型：公告摘要：自2021年SCICAP数据集发布以来，研究界在为学术文章中的科学图表生成描述方面取得了显著进展。2023年，首届SCICAP挑战赛举行，邀请全球团队使用扩大的SCICAP数据集，开发用于多种学术领域各类图表生成描述的模型。同时，文本生成模型快速发展，涌现出许多强大且预训练的大规模多模态模型（LMMs），它们在各种视觉和语言任务上展现了令人印象深刻的性能。本文概述了首届SCICAP挑战赛的情况，并详细描述了各种模型在其中的表现，捕捉了该领域的当前状态。我们发现，专业编辑普遍更偏好由GPT-4V生成的图表描述，而其他所有模型生成的描述甚至作者原创的描述都逊色于此。在这一关键发现的基础上，我们进行了详细分析，以回答这个问题：高级LMMs是否解决了为科学图表生成描述的任务？