LLM2D

摘要

arXiv:2504.21435v2 标题类型: replace-cross 摘要：随着多模态大型语言模型（MLLMs）的迅速发展，越来越多的基准测试已经被建立起来，用于评估这些模型的视频理解能力。然而，这些基准测试主要针对独立的视频，主要评估“视觉元素”如人类动作和对象状态。实际上，当代视频通常包含复杂的连续叙事，通常以一系列的形式呈现。为了解决这一挑战，我们提出了SeriesBench，这是一个由105个精心策划的叙事驱动系列组成的基准测试，涵盖了28个需要深入叙事理解的专门任务。具体来说，我们首先选择了一系列多样化的戏剧系列，涵盖了各种类型。然后，我们引入了一种新的长跨度叙事注释方法，并结合全面信息转换方法，将手动注释转换为多样化的任务格式。为了进一步增强模型在详细分析系列中的情节结构和人物关系方面的能力，我们提出了一种新的叙事推理框架，PC-DCoT。在SeriesBench上进行的广泛实验结果表明，现有的MLLMs仍然在理解叙事驱动的系列方面面临重大挑战，而PC-DCoT使这些MLLMs能够获得性能提升。总的来说，我们的SeriesBench和PC-DCoT突显了提高模型能力以理解叙事驱动的系列的重要性，并为MLLMs未来的发展指明了方向。SeriesBench在https://github.com/zackhxn/SeriesBench-CVPR2025上公开可用。