LLM2D

摘要

arXiv:2501.01645v2 通知类型: 替换-交叉摘要：多模态大型语言模型由于许多有前途的实际应用，已成为深度视觉理解领域的热门话题。然而，由于1）长期视频分析的挑战，2）大型模型方法的低效性，以及3）缺乏大规模基准数据集，一小时跨度的视频理解（包含成千上万的视觉帧）仍被忽视。在这些方面，本文重点关注建立一个大规模一小时长视频基准——HLV-1K，旨在评估长视频理解模型。HLV-1K 包含1009个一小时长的视频，以及14,847个具有时间感知查询和多样注解的高质量问答（QA）和多项选择问答（MCQA）对，涵盖了帧级、事件内级、跨事件级以及长期推理任务。我们使用现有最先进的方法评估了该基准，并展示了它的价值，用于测试不同级别和各种任务的深层长视频理解能力。这包括促进对长直播视频、会议录音和电影等细节层面的长视频理解任务的发展。