LLM2D

摘要

arXiv:2501.01645v3 宣告类型: replace-cross 摘要：多模态大语言模型由于许多有希望的实际应用而在深度视觉理解中变得非常流行。然而，由于 1）长期视频分析的挑战，2）大型模型方法的低效性，以及 3）缺乏大规模基准数据集，跨越一小时并包含数万帧视频的一小时视频理解仍处于未开发状态。在这其中，本文重点在于构建一个大规模一小时长视频基准——HLV-1K，旨在评估长视频理解模型。HLV-1K 包含 1009 个一小时长的视频，以及 14,847 个具有时间感知查询和多元注释的高质量问答 (QA) 和多项选择问答 (MCQA) 对，涵盖帧级、事件内级、跨事件级和长期推理任务。我们使用现有最先进的方法评估这一基准，并展示了其在不同层次和各种任务上测试深层长视频理解能力的价值。这包括促进更细致的长视频理解任务，例如长直播视频、会议记录和电影的深入理解。