LLM2D

VCR-Bench：全面的视频链式推理评估框架

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

作者: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao

发布日期: 4/11/2025

arXiv ID: oai:arXiv.org:2504.07956v1

摘要

arXiv:2504.07956v1 类型: cross 摘要：链式思维(Chain-of-Thought, CoT)推理的进步显著增强了大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)的能力。然而，对于视频CoT推理的严格评估框架仍然缺失。当前的视频基准测试无法充分评估推理过程，也无法明确区分失败是由于感知能力的不足还是推理能力的不足。因此，我们引入了VCR-Bench，这是一个新的基准测试，旨在全面评估LVLMs的视频链式思维推理能力。VCR-Bench包括859个视频，涵盖了各种视频内容和时长，以及1,034个高质量的问题-答案对。每个对都手动标注了一个逐步的CoT理由，每一步都标记以表明其与感知能力和推理能力的关联。此外，我们设计了七个不同的任务维度，并提出CoT得分来根据逐步标记的CoT理由评估整个CoT过程。在VCR-Bench上的广泛实验揭示了当前LVLMs存在重大局限性。即使表现最佳的模型o1，CoT得分也只有62.8%，准确率也只有56.7%，而大多数模型得分低于40%。实验表明，大多数模型在感知步骤上的得分低于推理步骤，揭示了LVLMs在复杂视频推理中时间-空间信息处理的关键瓶颈。CoT得分与准确性的稳健正相关证实了我们评估框架的有效性，并强调了CoT推理在解决复杂视频推理任务中的关键作用。希望VCR-Bench能作为标准化的评估框架，揭示复杂视频推理任务中存在的实际缺陷。

查看原文下载 PDF