LLM2D

摘要

arXiv:2503.24008v1 类型: cross 摘要：随着多模态模型的迅速发展，对视频理解能力的评估需求也在稳步增加。然而，现有的视频理解评估基准在覆盖范围、任务多样性和场景适应性方面表现出明显局限性。这些不足阻碍了对模型综合视频理解能力的准确评估。为应对这一挑战，我们提出了一个层次化和整体的视频理解（H2VU）基准，旨在评估一般视频和在线流媒体视频的理解能力。该基准贡献了三个关键特性：拓展的视频时长：从短短3秒的片段到长达1.5小时的完整记录，从而填补当前基准中存在的时间空白。全面的评估任务：除了传统的感知和推理任务外，我们还引入了反常识理解模块和轨迹状态跟踪模块。这些新增内容测试了模型超越先验知识的深刻理解能力。丰富的视频数据：为了跟上当前AI代理的快速发展，我们扩展了第一人称流媒体视频数据集。这一扩展允许探索多模态模型在理解第一人称视角流媒体视频方面的性能。H2VU的广泛结果表明，现有的多模态大型语言模型（MLLMs）在我们新提出的评估任务中具有显著改进的潜力。我们期望H2VU将通过提供对MLLMs的全面和深入分析来促进视频理解研究的进步。