LLM2D
VCR-Bench:全面的视频链式推理评估框架
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
作者: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07956v1

摘要

arXiv:2504.07956v1 类型: cross 摘要:链式思维(Chain-of-Thought, CoT)推理的进步显著增强了大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)的能力。然而,对于视频CoT推理的严格评估框架仍然缺失。当前的视频基准测试无法充分评估推理过程,也无法明确区分失败是由于感知能力的不足还是推理能力的不足。因此,我们引入了VCR-Bench,这是一个新的基准测试,旨在全面评估LVLMs的视频链式思维推理能力。VCR-Bench包括859个视频,涵盖了各种视频内容和时长,以及1,034个高质量的问题-答案对。每个对都手动标注了一个逐步的CoT理由,每一步都标记以表明其与感知能力和推理能力的关联。此外,我们设计了七个不同的任务维度,并提出CoT得分来根据逐步标记的CoT理由评估整个CoT过程。在VCR-Bench上的广泛实验揭示了当前LVLMs存在重大局限性。即使表现最佳的模型o1,CoT得分也只有62.8%,准确率也只有56.7%,而大多数模型得分低于40%。实验表明,大多数模型在感知步骤上的得分低于推理步骤,揭示了LVLMs在复杂视频推理中时间-空间信息处理的关键瓶颈。CoT得分与准确性的稳健正相关证实了我们评估框架的有效性,并强调了CoT推理在解决复杂视频推理任务中的关键作用。希望VCR-Bench能作为标准化的评估框架,揭示复杂视频推理任务中存在的实际缺陷。