LLM2D

摘要

近年来，人们普遍认为现代大型多模态模型（LMM）已经解决了与短视频理解相关的多数关键挑战。因此，学术界和工业界正在逐渐将注意力转向理解长视频所带来的更复杂挑战。然而，情况真的是这样吗？我们的研究表明，即使处理短视频，LMM仍然缺乏许多基本的推理能力。我们引入了 Vinoground，这是一个包含 1000 个自然短视频-字幕对的时间反事实 LMM 评估基准。我们证明了现有的 LMM 在区分不同动作和物体转换之间的时间差异方面存在严重困难。例如，最好的模型 GPT-4o 在我们的文本和视频得分上仅获得了约 50%，与人类基准的约 90% 相比，存在很大差距。所有开源多模态模型和基于 CLIP 的模型的表现都要差得多，产生的结果几乎是随机的。通过这项工作，我们揭示了短视频中的时间推理是一个尚未完全解决的问题。数据集和评估代码可在 https://vinoground.github.io 获得。