LLM2D

摘要

arXiv:2504.10018v1 Announce Type: cross 摘要：现有的行人属性识别方法通常基于RGB帧摄像头开发。然而，这些方法受到RGB摄像头限制，如对光照条件敏感和运动模糊，这限制了它们的表现。此外，当前的属性识别主要集中在分析行人的外部外观和着装上，缺乏对情感维度的探讨。在本文中，我们重新审视了这些问题，并通过借鉴事件摄像头在低光、高速和低功耗方面的优点，提出了一种新的多模态RGB-事件属性识别任务。具体来说，我们引入了第一个大规模的多模态行人属性识别数据集，称为EventPAR，其中包括10万个配对的RGB-事件样本，涵盖了与外观和六种人类情感相关的50个属性，多种场景和不同季节。通过对此数据集重新训练和评估主流的行人属性识别模型，我们建立了全面的基准，并为未来的研究奠定了坚实的数据和算法基础。此外，我们提出了一种基于RWKV的多模态行人属性识别框架，该框架包括一个RWKV视觉编码器和一个不对称的RWKV融合模块。我们在提出的数据集以及两个模拟数据集（MARS-Attribute和DukeMTMC-VID-Attribute）上进行了广泛的实验，取得了目前的最优结果。相关源代码和数据集将在 https://github.com/Event-AHU/OpenPAR 发布。