LLM2D
TGBFormer: Transformer-GraphFormer 混合网络用于视频物体检测
TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection
作者: Qiang Qi, Xiao Wang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2503.13903v2

摘要

arXiv:2503.13903v2 宣告类型:替换单元 摘要:近年来,卷积神经网络(CNNs)和视觉变换器(ViTs)的发展推动了视频对象检测取得了显著进展。通常情况下,CNN擅长捕捉局部特征,但在建模全局表示方面存在困难。相反,ViTs擅长捕捉长距离全局特征,但在表示局部特征细节方面面临挑战。现成的视频对象检测方法仅依赖于CNN或ViTs进行特征聚合,这限制了它们同时利用全局和局部信息的能力,从而导致检测性能受限。在这项研究中,我们提出了一种用于视频对象检测的Transformer-GraphFormer Blender网络(TGBFormer),通过对三个关键的技术改进充分利用变换器和图卷积网络的优势,同时弥补它们的不足。首先,我们开发了一个空间-时间变换器模块来聚合全局上下文信息,构建具有长距离特征依赖性的全局表示。其次,我们引入了一个空间-时间GraphFormer模块,利用局部空间和时间关系进行特征聚合,生成与变换器输出互补的新局部表示。第三,我们设计了一个全局-局部特征混频模块来适配性地耦合基于变换器的全局表示和基于GraphFormer的局部表示。广泛的实验结果表明,我们的TGBFormer在ImageNet VID数据集上建立了新的最佳性能。特别地,我们的TGBFormer在单块Tesla A100 GPU上运行时,能够实现约41.0 FPS,并且达到86.5%的mAP。