LLM2D
VEU-Bench:向着全面理解视频编辑的方向
VEU-Bench: Towards Comprehensive Understanding of Video Editing
作者: Bozheng Li, Yongliang Wu, Yi Lu, Jiashuo Yu, Licheng Tang, Jiawang Cao, Wenqing Zhu, Yuyang Sun, Jay Wu, Wenbo Zhu
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.17828v1

摘要

arXiv:2504.17828v1 分类类型: cross 摘要:网络上广泛共享的视频通常会被编辑。尽管最近的视频大型语言模型(Vid-LLMs)在一般视频理解任务上取得了很大进展,但在视频编辑理解(VEU)任务上的能力仍然未被探索。为了解决这一差距,本文介绍了VEU-Bench(视频编辑理解基准),这是一个全面的基准,从帧内特征如镜头大小到帧间属性如剪辑类型和过渡,分类了各种维度的视频编辑组件。不同于关注主要编辑元素分类的先前视频编辑理解基准,VEU-Bench 包含三个阶段的19个细粒度任务:识别、推理和判断。为了增强VEU的自动注释,我们构建了一个集成基于本体的知识库的注释管道。通过与11个当前最先进的Vid-LLMs进行广泛实验,我们的发现揭示了当前Vid-LLMs在VEU任务中面临着重大挑战,部分模型的表现甚至比随机选择更差。为缓解这一问题,我们开发了Oscars,这是一个专门针对策划的VEU-Bench数据集微调的VEU专家模型。Oscars 在VEU-Bench上的准确度上超过了现有开源的Vid-LLMs超过28.3%,其性能与像GPT-4o这样的商用模型相当。我们还展示了集成VEU数据显著提高了Vid-LLMs在一般视频理解基准上的性能,在九个推理任务中的平均改进为8.3%。