摘要
arXiv:2501.01645v2 通知类型: 替换-交叉
摘要:多模态大型语言模型由于许多有前途的实际应用,已成为深度视觉理解领域的热门话题。然而,由于1)长期视频分析的挑战,2)大型模型方法的低效性,以及3)缺乏大规模基准数据集,一小时跨度的视频理解(包含成千上万的视觉帧)仍被忽视。在这些方面,本文重点关注建立一个大规模一小时长视频基准——HLV-1K,旨在评估长视频理解模型。HLV-1K 包含1009个一小时长的视频,以及14,847个具有时间感知查询和多样注解的高质量问答(QA)和多项选择问答(MCQA)对,涵盖了帧级、事件内级、跨事件级以及长期推理任务。我们使用现有最先进的方法评估了该基准,并展示了它的价值,用于测试不同级别和各种任务的深层长视频理解能力。这包括促进对长直播视频、会议录音和电影等细节层面的长视频理解任务的发展。