摘要
arXiv:2504.12576v1 宣传类型: cross
摘要:由于事件摄像头在高动态范围、高时间分辨率、低功耗和低延迟方面的优势,近年来引起了越来越多的关注。一些研究人员已经开始探索直接在事件数据上进行预训练。然而,这些努力往往无法建立与RGB帧之间的强烈联系,限制了其在多模态融合场景中的应用。为了解决这些问题,我们提出了一种新颖的CM3AE预训练框架,用于RGB-事件感知。该框架接受多模态/视图的数据作为输入,包括RGB图像、事件图像和事件体素,为基于事件的和RGB-事件融合的下游任务提供了强大的支持。具体而言,我们设计了一个多模态融合重构模块,该模块从融合的多模态特征中重构原始图像,显式地增强了模型在聚合跨模态互补信息方面的能力。此外,我们采用了多模态对比学习策略,在共享的潜在空间中对齐跨模态特征表示,这有效增强了模型在多模态理解和捕获全局依赖方面的能力。我们构建了一个包含2,535,759个RGB-事件数据对的大规模数据集用于预训练。在五个下游任务上的广泛实验充分证明了CM3AE的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/CM3AE 发布。