摘要
arXiv:2504.05830v1 Announce Type: cross
摘要:人体活动识别(HAR)主要依赖传统的RGB摄像头来实现高性能的活动识别。然而,在现实世界场景中,如光照不足和快速移动等因素不可避免地会降低RGB摄像头的性能。为了解决这些挑战,生物启发的事件摄像头提供了一种克服传统RGB摄像头限制的前景解决方案。在这项工作中,我们通过结合RGB摄像头和事件摄像头重新思考人体活动识别。第一个贡献是我们提出了一个大规模多模式RGB-事件人体活动识别基准数据集,称为HARDVS 2.0,该数据集弥补了数据集的差距。它包含300种日常生活中的实际动作类别,总共有107,646对视频,涵盖了各种具有挑战性的场景。受物理信息的热传导模型启发,我们提出了一种新的多模式热传导操作框架,用于有效的活动识别,称为MMHCO-HAR。具体来说,给定RGB帧和事件流,我们首先使用茎网络提取特征嵌入。然后设计多模式热传导块来融合双特征,其中的关键模块是多模式热传导操作层。我们通过多模式DCT-IDCT层将RGB和事件嵌入进行整合,并通过FVEs适当地将热导率系数纳入该模块。之后,我们基于策略路由策略提出了一种基于自适应融合模块,以实现高性能分类。全面的实验表明,我们的方法始终表现出色,验证了其有效性和鲁棒性。相关源代码和基准数据集将在https://github.com/Event-AHU/HARDVS/tree/HARDVSv2上发布。