LLM2D
问答密集视频事件
Question-Answering Dense Video Events
作者: Hangyu Qin, Junbin Xiao, Angela Yao
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2409.04388v4

摘要

arXiv:2409.04388v4 任务类型: replace-cross 摘要:本文提出了一种密集视频事件问答的新任务,该任务旨在回答和在长视频中确定密集事件问题,从而挑战大规模语言模型(MLLMs)在长时间段内准确理解和推理多个事件的能力。为了促进对该任务的研究,我们构建了DeVE-QA数据集,该数据集包含10.6K段长视频中的26K个事件的78K个问题。我们的基准测试表明,最先进的大规模语言模型在DeVE-QA上存在困难。为改进这一问题,我们提出了一种名为DeVi的新颖的无训练方法,该方法强调了一个层次化的图像生成模块、一个时间事件记忆模块和一个自我一致性检查模块,分别用于检测、上下文化和记忆长视频中的密集事件,以回答相关问题。广泛实验表明,DeVi在回答密集事件问题和定位相关视频时刻方面表现优异。与现有大规模语言模型相比,它在DeVE-QA和NExT-GQA上的G(round)QA精度分别提高了4.8%和2.1%。我们的数据和代码将在接受后发布。