LLM2D
迷失在时间中:多模态大语言模型中的时钟和日历理解挑战
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
作者: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.05092v1

摘要

arXiv:2502.05092v1 交叉公告类型:跨领域 摘要:从视觉表示中理解时间是一项基本的认知技能,但对于多模态大型语言模型(MLLMs)来说仍是一个挑战。在本文中,我们探讨了MLLMs在通过模拟时钟和年历解释时间与日期的能力。为了促进这一研究,我们编curated制了一个结构化数据集,包含两个子集:1)$\textit{ClockQA}$,该子集包含各种类型的时钟样式——标准时钟、黑底时钟、无秒针时钟、罗马数字时钟和指针时钟——并配以与时间相关的问题;2)$\textit{CalendarQA}$,该子集包括带有从常用日期(例如圣诞节、新年)到计算得出的日期(例如一年中的第100天或第153天)的问题的年历图片。我们旨在分析当MLLMs面对与时间相关的视觉数据时,它们在视觉识别、数值推理和时间推断方面的表现。我们的评估结果显示,尽管最近取得了一些进展,但对于MLLMs来说,可靠地理解和解释时间仍然是一个重大挑战。