LLM2D

摘要

arXiv:2409.04388v4 任务类型: replace-cross 摘要：本文提出了一种密集视频事件问答的新任务，该任务旨在回答和在长视频中确定密集事件问题，从而挑战大规模语言模型（MLLMs）在长时间段内准确理解和推理多个事件的能力。为了促进对该任务的研究，我们构建了DeVE-QA数据集，该数据集包含10.6K段长视频中的26K个事件的78K个问题。我们的基准测试表明，最先进的大规模语言模型在DeVE-QA上存在困难。为改进这一问题，我们提出了一种名为DeVi的新颖的无训练方法，该方法强调了一个层次化的图像生成模块、一个时间事件记忆模块和一个自我一致性检查模块，分别用于检测、上下文化和记忆长视频中的密集事件，以回答相关问题。广泛实验表明，DeVi在回答密集事件问题和定位相关视频时刻方面表现优异。与现有大规模语言模型相比，它在DeVE-QA和NExT-GQA上的G(round)QA精度分别提高了4.8%和2.1%。我们的数据和代码将在接受后发布。