LLM2D
大型多模态模型能解决科学图表的 caption 生成问题吗?来自 SCICAP 挑战 2023 的教训
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023
作者: Ting-Yao E. Hsu, Yi-Li Hsu, Shaurya Rohatgi, Chieh-Yang Huang, Ho Yin Sam Ng, Ryan Rossi, Sungchul Kim, Tong Yu, Lun-Wei Ku, C. Lee Giles, Ting-Hao K. Huang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.19353v2

摘要

arXiv:2501.19353v2 通知类型: 替换交叉 摘要: 自2021年SCICAP数据集发布以来,研究界在生成学术文章中科学图表的描述中取得了显著进展。2023年,首次举办了SCICAP挑战,邀请全球团队使用扩展的SCICAP数据集,开发适用于各种学术领域的不同图表类型的描述模型。与此同时,文本生成模型取得了快速进步,许多强大的预训练大模型(LMMs)涌现出来,在各种视觉和语言任务中展示了令人印象深刻的性能。本文概述了首次SCICAP挑战的情况,并详细描述了各种模型在该数据集上的表现,捕捉到该领域的现状。我们发现,专业编辑普遍更偏好GPT-4V生成的图表描述,而非其他所有模型甚至作者最初撰写的描述。基于这一关键发现,我们进行了详细的分析,以解决这个问题:先进的LMMs是否已解决科学图表描述任务?