LLM2D

摘要

感知对象随时间变化的能力是人类智能的一个关键要素。然而，由于存在静态视觉捷径，当前的基准测试无法真实反映视频语言模型（VidLMs）的时间理解能力。为了解决这个问题，我们提出了VITATECS，这是一个用于评估时间概念理解的诊断性视频-文本数据集。具体来说，我们首先引入了自然语言中时间概念的细粒度分类法，以诊断VidLMs理解不同时间方面的能力。此外，为了解开静态信息和时间信息之间的关联，我们生成了与原始描述仅在指定时间方面不同的反事实视频描述。我们采用了一个使用大型语言模型和人工参与注释的半自动数据收集框架，以高效地获得高质量的反事实描述。对代表性视频语言理解模型的评估证实了它们在时间理解方面的不足，揭示了在视频语言研究中需要更加重视时间元素。