LLM2D

摘要

arXiv:2504.05783v1 Announce Type: cross 摘要：视频问答（VideoQA）是一个复杂的时间-语言任务，要求对视觉内容和时间动态有复杂的理解。传统的基于变换器的架构虽然在整合多模态数据方面效果显著，但在通过位置编码简化时间动态方面往往存在局限性，且无法捕捉视频序列内的非线性交互。在本文中，我们引入了时间三重变换器（T3T），这一新颖的架构用于建模时间和时间变异性。T3T集成了三个关键组件：时间平滑（TS）、时间差异（TD）和时间融合（TF）。TS模块利用布朗桥捕捉平滑的时间连续过渡，而TD模块识别并编码视频内容中的显著时间变化和突变。随后，TF模块将这些时间特征与文本线索综合起来，促进更深层次的上下文理解和响应准确性。通过在多个VideoQA基准数据集上的广泛测试，展示了T3T的有效性。我们的结果强调了在提高基于视频的问答准确性和深度方面，对时间建模采取细腻方法的重要性。