LLM2D

摘要

arXiv:2502.05092v1 交叉公告类型：跨领域摘要：从视觉表示中理解时间是一项基本的认知技能，但对于多模态大型语言模型（MLLMs）来说仍是一个挑战。在本文中，我们探讨了MLLMs在通过模拟时钟和年历解释时间与日期的能力。为了促进这一研究，我们编curated制了一个结构化数据集，包含两个子集：1）$\textit{ClockQA}$，该子集包含各种类型的时钟样式——标准时钟、黑底时钟、无秒针时钟、罗马数字时钟和指针时钟——并配以与时间相关的问题；2）$\textit{CalendarQA}$，该子集包括带有从常用日期（例如圣诞节、新年）到计算得出的日期（例如一年中的第100天或第153天）的问题的年历图片。我们旨在分析当MLLMs面对与时间相关的视觉数据时，它们在视觉识别、数值推理和时间推断方面的表现。我们的评估结果显示，尽管最近取得了一些进展，但对于MLLMs来说，可靠地理解和解释时间仍然是一个重大挑战。