摘要
arXiv:2412.05725v2 通知类型: 替换-交叉
摘要:视觉-语言模型(VLMs)的常识推理能力,尤其是归纳推理和论辩推理,仍然缺乏深入理解。大多数基准测试主要集中在典型的视觉场景上,这使得难以区分模型性能是源于敏锐的感知和推理技能,还是依赖于纯粹的统计回忆。我们认为,通过关注视频中的典型事件,可以更清晰地了解VLMs的核心能力。解释和理解这些分布外的事件要求模型超出基本的模式识别和重复其先验知识的范围。为此,我们引入了BlackSwanSuite,这是一个用于评估VLMs在通过归纳和论辩任务来推理意外事件的能力的基准测试。我们的任务人为地限制了模型提供的视觉信息量,同时询问他们关于隐藏的意外事件,或者提供新的视觉信息,这些信息可能会改变他们对事件的现有假设。我们精心编制了一个基准测试套件,包含超过3800个多项选择题,4900个生成性问题和6700个是非题,覆盖了1655个视频。在广泛评估包括GPT-4o和Gemini 1.5 Pro在内的各种最先进的VLMs,以及开源的VLMs如LLaVA-Video后,我们发现这些任务中人类的表现差距最高可达32%。我们的发现揭示了当前VLMs的关键局限性,强调了增强模型架构和训练策略的必要性。我们的数据和排行榜可在blackswan.cs.ubc.ca获取。