LLM2D
基于RGB事件传感器的人类活动识别:一种多模态热传导模型及基准数据集
Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset
作者: Shiao Wang, Xiao Wang, Bo Jiang, Lin Zhu, Guoqi Li, Yaowei Wang, Yonghong Tian, Jin Tang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05830v1

摘要

arXiv:2504.05830v1 Announce Type: cross 摘要:人体活动识别(HAR)主要依赖传统的RGB摄像头来实现高性能的活动识别。然而,在现实世界场景中,如光照不足和快速移动等因素不可避免地会降低RGB摄像头的性能。为了解决这些挑战,生物启发的事件摄像头提供了一种克服传统RGB摄像头限制的前景解决方案。在这项工作中,我们通过结合RGB摄像头和事件摄像头重新思考人体活动识别。第一个贡献是我们提出了一个大规模多模式RGB-事件人体活动识别基准数据集,称为HARDVS 2.0,该数据集弥补了数据集的差距。它包含300种日常生活中的实际动作类别,总共有107,646对视频,涵盖了各种具有挑战性的场景。受物理信息的热传导模型启发,我们提出了一种新的多模式热传导操作框架,用于有效的活动识别,称为MMHCO-HAR。具体来说,给定RGB帧和事件流,我们首先使用茎网络提取特征嵌入。然后设计多模式热传导块来融合双特征,其中的关键模块是多模式热传导操作层。我们通过多模式DCT-IDCT层将RGB和事件嵌入进行整合,并通过FVEs适当地将热导率系数纳入该模块。之后,我们基于策略路由策略提出了一种基于自适应融合模块,以实现高性能分类。全面的实验表明,我们的方法始终表现出色,验证了其有效性和鲁棒性。相关源代码和基准数据集将在https://github.com/Event-AHU/HARDVS/tree/HARDVSv2上发布。