LLM2D
编码和控制长篇视频问答的全局语义
Encoding and Controlling Global Semantics for Long-form Video Question Answering
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2405.19723v2

摘要

寻求长视频的有效答案对于建立视频问答(videoQA)系统至关重要。先前的方法自适应地从长视频中选择帧和区域以节省计算资源。然而,这无法对整个视频序列进行推理,导致次优的性能。为了解决这个问题,我们在多模态Transformer中引入了一个状态空间层(SSL),以有效整合视频的全局语义,从而缓解了由帧和区域选择模块引起的视频信息丢失。我们的SSL包括一个门控单元,能够控制全局语义流入视觉表示。为了进一步增强这种可控性,我们引入了一个跨模态组合一致性(C^3)目标,以鼓励全局语义与问题对齐。为了严格评估长视频问答的能力,我们构建了两个新基准Ego-QA和MAD-QA,分别包含长度为17.5分钟和1.9小时的长视频。大量实验表明,我们的框架在这些新数据集以及现有数据集上具有优越性。