摘要
arXiv:2502.04326v1 类别: cross
摘要: 在本文中,我们介绍了一种新的基准WorldSense,该基准用于评估多模态视频理解能力,并同时涵盖了视觉、音频和文本输入。与现有的基准不同,我们的WorldSense具有以下几个特点:(i) 跨模态协作,我们设计了评估任务,要求模型能够有效利用跨模态的协同感知;(ii) 视频和任务的多样性,WorldSense 包含了1,662个音频-视觉同步视频的多样化集合,系统地分为8个主要领域和67个细分类别,以覆盖广泛的情景,并包含来自26个不同任务的3,172个多项选择的问答对,以实现全面评估;(iii) 高质量的注解,所有问答对都由80名专家注释员经过多轮修正人工标注,以确保质量。基于我们的WorldSense,我们广泛评估了各种最先进模型。实验结果表明,现有模型在理解现实世界场景方面面临重大挑战(最佳准确率为48.0%)。我们希望我们的WorldSense能够提供一个平台,用于评估从跨模态构建和理解连贯上下文的能力。