LLM2D

摘要

arXiv:2504.21435v3 宣告类型: replace-cross 摘要：随着多模态大语言模型（MLLMs）的迅猛发展，越来越多的基准测试被建立起来，用于评估这些模型的视频理解能力。然而，这些基准测试主要针对独立视频，主要评估“视觉元素”如人类行为和对象状态。实际上，当今的视频通常包含了复杂的连续叙事，通常以一系列形式呈现。为应对这一挑战，我们提出了一种名为SeriesBench的基准测试，包含105个精心策划的叙事驱动系列，覆盖28个需要深入叙事理解的专门任务。具体来说，我们首先选择了一组涵盖各种类型的戏剧系列。然后，我们引入了一种新的长跨度叙事注释方法，并结合了全面信息转换方法，将手动注释转换为多种任务格式。为了进一步增强模型在系列内部情节结构和角色关系详细分析方面的能力，我们提出了一种新的叙事推理框架PC-DCoT。在SeriesBench上进行的广泛结果表明，现有的MLLMs仍然在理解叙事驱动系列方面面临重大挑战，而PC-DCoT使这些MLLMs能够实现性能提升。总体而言，我们的SeriesBench和PC-DCoT强调了提高模型能力以理解叙事驱动系列的迫切必要性，指导未来MLLMs的发展。SeriesBench已在https://github.com/zackhxn/SeriesBench-CVPR2025公开提供。