LLM2D

摘要

arXiv:2503.13903v2 宣告类型：替换单元摘要：近年来，卷积神经网络（CNNs）和视觉变换器（ViTs）的发展推动了视频对象检测取得了显著进展。通常情况下，CNN擅长捕捉局部特征，但在建模全局表示方面存在困难。相反，ViTs擅长捕捉长距离全局特征，但在表示局部特征细节方面面临挑战。现成的视频对象检测方法仅依赖于CNN或ViTs进行特征聚合，这限制了它们同时利用全局和局部信息的能力，从而导致检测性能受限。在这项研究中，我们提出了一种用于视频对象检测的Transformer-GraphFormer Blender网络（TGBFormer），通过对三个关键的技术改进充分利用变换器和图卷积网络的优势，同时弥补它们的不足。首先，我们开发了一个空间-时间变换器模块来聚合全局上下文信息，构建具有长距离特征依赖性的全局表示。其次，我们引入了一个空间-时间GraphFormer模块，利用局部空间和时间关系进行特征聚合，生成与变换器输出互补的新局部表示。第三，我们设计了一个全局-局部特征混频模块来适配性地耦合基于变换器的全局表示和基于GraphFormer的局部表示。广泛的实验结果表明，我们的TGBFormer在ImageNet VID数据集上建立了新的最佳性能。特别地，我们的TGBFormer在单块Tesla A100 GPU上运行时，能够实现约41.0 FPS，并且达到86.5%的mAP。