LLM2D

摘要

arXiv:2312.11128v2 通知类型：替换-交叉摘要：基于RGB-事件数据的模式识别是一个新兴的研究课题，之前的 works 通常使用 CNN 或 Transformer 来学习其特征。我们知道，CNN 能很好地捕捉局部特征，而级联的自注意力机制则擅长提取长范围的全局关系。因此，结合它们来进行高性能的基于 RGB-事件数据的视频识别是直观的。然而，现有的工作未能在准确性和模型参数之间取得良好的平衡，如图 \ref{firstimage} 所示。在本工作中，我们提出了一个名为 TSCFormer 的新颖的基于 RGB-事件数据的识别框架，这是一个相对轻量级的 CNN-Transformer 模型。具体来说，我们主要采用 CNN 作为骨干网络来首先编码 RGB 和事件数据。同时，我们初始化全局令牌作为输入，并使用 BridgeFormer 模块将它们与 RGB 和事件特征融合。它很好地捕获了两者之间的全局长范围关系，并且在同一时间保持了整个模型架构的简洁性。增强后的特征将以交互方式被投影并分别融合到 RGB 和事件 CNN 模块中，使用 F2E 和 F2V 模块。类似的操作也应用于其他 CNN 模块，以在不同分辨率下实现自适应融合和局部-全局特征增强。最后，我们将这三种特征串联起来并将其输入到分类头中进行模式识别。在两个大规模的 RGB-事件基准数据集（PokerEvent 和 HARDVS）上进行了广泛的实验，充分验证了我们提出的 TSCFormer 的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/TSCFormer 释放。