摘要
arXiv:2505.01583v1 交叉类型:cross
摘要:视觉语言模型在理解因果事件关系和实现视频中的细粒度时间定位方面仍然面临挑战。现有方法要么通过压缩视频令牌来降低时间分辨率,要么将视频视为未分割的流,这会模糊细粒度事件边界并限制因果依赖关系的建模。我们提出了TEMPURA(Temporal Event Masked Prediction and Understanding for Reasoning in Action),这是一种两阶段的训练框架,旨在增强视频的时间理解能力。TEMPURA首先应用掩码事件预测推理来重建缺失的事件,并从密集的事件注释中生成逐步的因果解释,这借鉴了有效的填充技术。然后,TEMPURA学习进行视频分割和密集字幕生成,将视频分解为无重叠事件,并附带详细的时间戳对齐描述。我们利用我们精心编纂的VER数据集对TEMPURA进行训练,该数据集包含了100万训练实例和50万具有时间对齐事件描述和结构化推理步骤的视频。在时间定位和关键点检测基准上的实验表明,TEMPURA优于强基线模型,证明了将因果推理与细粒度时间分割结合使用可以提高视频理解能力。