摘要
arXiv:2312.11128v2 通知类型:替换-交叉
摘要:基于RGB-事件数据的模式识别是一个新兴的研究课题,之前的 works 通常使用 CNN 或 Transformer 来学习其特征。我们知道,CNN 能很好地捕捉局部特征,而级联的自注意力机制则擅长提取长范围的全局关系。因此,结合它们来进行高性能的基于 RGB-事件数据的视频识别是直观的。然而,现有的工作未能在准确性和模型参数之间取得良好的平衡,如图 \ref{firstimage} 所示。在本工作中,我们提出了一个名为 TSCFormer 的新颖的基于 RGB-事件数据的识别框架,这是一个相对轻量级的 CNN-Transformer 模型。具体来说,我们主要采用 CNN 作为骨干网络来首先编码 RGB 和事件数据。同时,我们初始化全局令牌作为输入,并使用 BridgeFormer 模块将它们与 RGB 和事件特征融合。它很好地捕获了两者之间的全局长范围关系,并且在同一时间保持了整个模型架构的简洁性。增强后的特征将以交互方式被投影并分别融合到 RGB 和事件 CNN 模块中,使用 F2E 和 F2V 模块。类似的操作也应用于其他 CNN 模块,以在不同分辨率下实现自适应融合和局部-全局特征增强。最后,我们将这三种特征串联起来并将其输入到分类头中进行模式识别。在两个大规模的 RGB-事件基准数据集(PokerEvent 和 HARDVS)上进行了广泛的实验,充分验证了我们提出的 TSCFormer 的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/TSCFormer 释放。