LLM2D
ACVUBench: 音频中心的视频理解基准
ACVUBench: Audio-Centric Video Understanding Benchmark
作者: Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.19951v1

摘要

arXiv:2503.19951v1 交叉公告类型:跨领域 摘要:音频通常在音频-视觉大型语言模型(LLMs)的视频理解任务中充当辅助模态,仅辅助理解视觉信息。然而,深入理解视频显著依赖于听觉信息,因为音频提供了视觉数据自身往往缺乏的关键背景信息、情感线索和语义意义。本文提出了一种以音频为中心的视频理解基准测试(ACVUBench),以评估多模态LLMs的视频理解能力,特别是侧重于听觉信息。具体而言,ACVUBench 包含了涵盖 18 个不同领域的 2,662 个视频,这些视频富含丰富的听觉信息,并伴有超过 13,000 个高质量的人工标注或验证的问答对。此外,ACVUBench 引入了一系列精心设计的以音频为中心的任务,全面测试了视频中音频内容和音频-视觉交互的理解能力。在开源和专有多模态LLMs的广泛范围内进行了彻底的评估,并对音频-视觉LLMs的不足进行了分析。可以在https://github.com/lark-png/ACVUBench 获取演示。