LLM2D

摘要

arXiv:2503.19951v1 交叉公告类型：跨领域摘要：音频通常在音频-视觉大型语言模型(LLMs)的视频理解任务中充当辅助模态，仅辅助理解视觉信息。然而，深入理解视频显著依赖于听觉信息，因为音频提供了视觉数据自身往往缺乏的关键背景信息、情感线索和语义意义。本文提出了一种以音频为中心的视频理解基准测试(ACVUBench)，以评估多模态LLMs的视频理解能力，特别是侧重于听觉信息。具体而言，ACVUBench 包含了涵盖 18 个不同领域的 2,662 个视频，这些视频富含丰富的听觉信息，并伴有超过 13,000 个高质量的人工标注或验证的问答对。此外，ACVUBench 引入了一系列精心设计的以音频为中心的任务，全面测试了视频中音频内容和音频-视觉交互的理解能力。在开源和专有多模态LLMs的广泛范围内进行了彻底的评估，并对音频-视觉LLMs的不足进行了分析。可以在https://github.com/lark-png/ACVUBench 获取演示。