摘要
arXiv:2504.05783v1 Announce Type: cross
摘要:视频问答(VideoQA)是一个复杂的时间-语言任务,要求对视觉内容和时间动态有复杂的理解。传统的基于变换器的架构虽然在整合多模态数据方面效果显著,但在通过位置编码简化时间动态方面往往存在局限性,且无法捕捉视频序列内的非线性交互。在本文中,我们引入了时间三重变换器(T3T),这一新颖的架构用于建模时间和时间变异性。T3T集成了三个关键组件:时间平滑(TS)、时间差异(TD)和时间融合(TF)。TS模块利用布朗桥捕捉平滑的时间连续过渡,而TD模块识别并编码视频内容中的显著时间变化和突变。随后,TF模块将这些时间特征与文本线索综合起来,促进更深层次的上下文理解和响应准确性。通过在多个VideoQA基准数据集上的广泛测试,展示了T3T的有效性。我们的结果强调了在提高基于视频的问答准确性和深度方面,对时间建模采取细腻方法的重要性。