LLM2D

摘要

arXiv:2406.10889v2 宣告类型: replace-cross 摘要：视频中组合推理的基本方面在于将人物与其随时间的动作关联起来。近几年，在通用视觉或视频模型以及长视频理解方面取得了显著进展。虽然令人兴奋，但我们退一步问：当前的模型是否擅长处理短视频中的组合推理？为此，我们引入了VELOCITI基准，通过分离和评估代理、动作及其在多个事件中的关联来研究视频LLM。我们采用了Video-Language Entailment设置，并提出了StrictVLE，该设置要求对正负描述词进行正确分类（而不是排名）。我们评估了几种模型，并观察到即使是表现最好的模型，如LLaVA-OneVision（44.5%）和Gemini-1.5-Pro（49.3%），也远低于人类的准确性（93.0%）。结果显示，动作理解滞后于代理，且由出现在视频中的实体创建的负面描述词的表现不如纯文本操作获得的描述词差。我们还指出了ClassicVLE和多项选择（MC）评估的挑战，进一步强化了我们对StrictVLE的偏好。最后，我们验证了我们的基准需要多帧的视觉输入，使其成为研究视频语言组合推理的理想选择。