LLM2D

摘要

arXiv:2502.04326v1 类别: cross 摘要: 在本文中，我们介绍了一种新的基准WorldSense，该基准用于评估多模态视频理解能力，并同时涵盖了视觉、音频和文本输入。与现有的基准不同，我们的WorldSense具有以下几个特点：(i) 跨模态协作，我们设计了评估任务，要求模型能够有效利用跨模态的协同感知；(ii) 视频和任务的多样性，WorldSense 包含了1,662个音频-视觉同步视频的多样化集合，系统地分为8个主要领域和67个细分类别，以覆盖广泛的情景，并包含来自26个不同任务的3,172个多项选择的问答对，以实现全面评估；(iii) 高质量的注解，所有问答对都由80名专家注释员经过多轮修正人工标注，以确保质量。基于我们的WorldSense，我们广泛评估了各种最先进模型。实验结果表明，现有模型在理解现实世界场景方面面临重大挑战（最佳准确率为48.0%）。我们希望我们的WorldSense能够提供一个平台，用于评估从跨模态构建和理解连贯上下文的能力。