LLM2D
视频流作为时间序列:发现视频QA中的时间一致性与变异性
Video Flow as Time Series: Discovering Temporal Consistency and Variability for VideoQA
作者: Zijie Song, Zhenzhen Hu, Yixiao Ma, Jia Li, Richang Hong
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05783v1

摘要

arXiv:2504.05783v1 Announce Type: cross 摘要:视频问答(VideoQA)是一个复杂的时间-语言任务,要求对视觉内容和时间动态有复杂的理解。传统的基于变换器的架构虽然在整合多模态数据方面效果显著,但在通过位置编码简化时间动态方面往往存在局限性,且无法捕捉视频序列内的非线性交互。在本文中,我们引入了时间三重变换器(T3T),这一新颖的架构用于建模时间和时间变异性。T3T集成了三个关键组件:时间平滑(TS)、时间差异(TD)和时间融合(TF)。TS模块利用布朗桥捕捉平滑的时间连续过渡,而TD模块识别并编码视频内容中的显著时间变化和突变。随后,TF模块将这些时间特征与文本线索综合起来,促进更深层次的上下文理解和响应准确性。通过在多个VideoQA基准数据集上的广泛测试,展示了T3T的有效性。我们的结果强调了在提高基于视频的问答准确性和深度方面,对时间建模采取细腻方法的重要性。