LLM2D
HLV-1K:大规模一小时视频基准,用于时间特定长视频理解
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2501.01645v2

摘要

arXiv:2501.01645v2 通知类型: 替换-交叉 摘要:多模态大型语言模型由于许多有前途的实际应用,已成为深度视觉理解领域的热门话题。然而,由于1)长期视频分析的挑战,2)大型模型方法的低效性,以及3)缺乏大规模基准数据集,一小时跨度的视频理解(包含成千上万的视觉帧)仍被忽视。在这些方面,本文重点关注建立一个大规模一小时长视频基准——HLV-1K,旨在评估长视频理解模型。HLV-1K 包含1009个一小时长的视频,以及14,847个具有时间感知查询和多样注解的高质量问答(QA)和多项选择问答(MCQA)对,涵盖了帧级、事件内级、跨事件级以及长期推理任务。我们使用现有最先进的方法评估了该基准,并展示了它的价值,用于测试不同级别和各种任务的深层长视频理解能力。这包括促进对长直播视频、会议录音和电影等细节层面的长视频理解任务的发展。