LLM2D

摘要

寻求长视频的有效答案对于建立视频问答（videoQA）系统至关重要。先前的方法自适应地从长视频中选择帧和区域以节省计算资源。然而，这无法对整个视频序列进行推理，导致次优的性能。为了解决这个问题，我们在多模态Transformer中引入了一个状态空间层（SSL），以有效整合视频的全局语义，从而缓解了由帧和区域选择模块引起的视频信息丢失。我们的SSL包括一个门控单元，能够控制全局语义流入视觉表示。为了进一步增强这种可控性，我们引入了一个跨模态组合一致性（C^3）目标，以鼓励全局语义与问题对齐。为了严格评估长视频问答的能力，我们构建了两个新基准Ego-QA和MAD-QA，分别包含长度为17.5分钟和1.9小时的长视频。大量实验表明，我们的框架在这些新数据集以及现有数据集上具有优越性。