摘要
多模态大型语言模型(MLLM)的进步使得多模态理解取得了显著进展,扩展了其分析视频内容的能力。然而,现有的MLLM评估基准主要关注抽象的视频理解,缺乏对其理解视频构成能力的详细评估,即对视觉元素如何在高度编译的视频环境中组合和交互的细致解读。我们引入了VidComposition,这是一个专门设计用于评估MLLM视频构成理解能力的新基准,它使用了精心策划的编译视频和电影级别的注释。VidComposition包含982个视频和1706个多项选择题,涵盖了各种构成方面,例如摄像机运动、角度、镜头大小、叙事结构、人物动作和情绪等。我们对33个开源和专有MLLM的综合评估揭示了人类能力和模型能力之间存在显著的性能差距。这突出了当前MLLM在理解复杂的编译视频构成方面的局限性,并为进一步改进提供了见解。排行榜和评估代码可在https://yunlong10.github.io/VidComposition/ 获取。