摘要
arXiv:2504.10018v1 Announce Type: cross
摘要:现有的行人属性识别方法通常基于RGB帧摄像头开发。然而,这些方法受到RGB摄像头限制,如对光照条件敏感和运动模糊,这限制了它们的表现。此外,当前的属性识别主要集中在分析行人的外部外观和着装上,缺乏对情感维度的探讨。在本文中,我们重新审视了这些问题,并通过借鉴事件摄像头在低光、高速和低功耗方面的优点,提出了一种新的多模态RGB-事件属性识别任务。具体来说,我们引入了第一个大规模的多模态行人属性识别数据集,称为EventPAR,其中包括10万个配对的RGB-事件样本,涵盖了与外观和六种人类情感相关的50个属性,多种场景和不同季节。通过对此数据集重新训练和评估主流的行人属性识别模型,我们建立了全面的基准,并为未来的研究奠定了坚实的数据和算法基础。此外,我们提出了一种基于RWKV的多模态行人属性识别框架,该框架包括一个RWKV视觉编码器和一个不对称的RWKV融合模块。我们在提出的数据集以及两个模拟数据集(MARS-Attribute和DukeMTMC-VID-Attribute)上进行了广泛的实验,取得了目前的最优结果。相关源代码和数据集将在 https://github.com/Event-AHU/OpenPAR 发布。