LLM2D
基于事件摄像头的混合尖峰视觉变换器用于目标检测
Hybrid Spiking Vision Transformer for Object Detection with Event Cameras
作者: Qi Xu, Jie Deng, Jiangrong Shen, Biwu Chen, Huajin Tang, Gang Pan
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07715v1

摘要

arXiv:2505.07715v1 报告类型: cross 摘要: 事件驱动的目标检测由于其高时间分辨率、宽动态范围和非同步地址事件表示等优势而引起了越来越多的关注。利用这些优势,脉冲神经网络(SNN)作为一种有前景的方法已经浮现出来,提供了低能耗和丰富的时空动态。为了进一步提高事件驱动的目标检测性能,本研究提出了一种新的混合脉冲视觉变换器(HsVT)模型。HsVT模型集成了一个空间特征提取模块来捕获局部和全局特征,以及一个时间特征提取模块来建模事件序列中的时间依赖性和长期模式。这种组合使HsVT能够捕获时空特征,提高其处理复杂事件驱动的目标检测任务的能力。为了支持该领域的研究,我们开发并公开发布了《跌倒检测数据集》,用作事件驱动的目标检测任务的基准数据集。该数据集使用事件驱动的相机捕获,确保了面部隐私保护,并且由于事件表示格式的原因,减少了存储需求。我们在不同模型大小的GEN1和跌倒检测数据集上对HsVT模型进行了评估。实验结果表明,HsVT在参数更少的情况下实现了事件检测性能的显著提升。