LLM2D
大型多模态模型能解决科学图表的 caption 生成问题吗?来自 SCICAP 挑战 2023 的经验教训
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023
作者: Ting-Yao E. Hsu, Yi-Li Hsu, Shaurya Rohatgi, Chieh-Yang Huang, Ho Yin Sam Ng, Ryan Rossi, Sungchul Kim, Tong Yu, Lun-Wei Ku, C. Lee Giles, Ting-Hao K. Huang
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.19353v1

摘要

arXiv:2501.19353v1 交叉类型:公告 摘要:自2021年SCICAP数据集发布以来,研究界在为学术文章中的科学图表生成描述方面取得了显著进展。2023年,首届SCICAP挑战赛举行,邀请全球团队使用扩大的SCICAP数据集,开发用于多种学术领域各类图表生成描述的模型。同时,文本生成模型快速发展,涌现出许多强大且预训练的大规模多模态模型(LMMs),它们在各种视觉和语言任务上展现了令人印象深刻的性能。本文概述了首届SCICAP挑战赛的情况,并详细描述了各种模型在其中的表现,捕捉了该领域的当前状态。我们发现,专业编辑普遍更偏好由GPT-4V生成的图表描述,而其他所有模型生成的描述甚至作者原创的描述都逊色于此。在这一关键发现的基础上,我们进行了详细分析,以回答这个问题:高级LMMs是否解决了为科学图表生成描述的任务?