LLM2D

摘要

arXiv:2504.12576v1 宣传类型: cross 摘要：由于事件摄像头在高动态范围、高时间分辨率、低功耗和低延迟方面的优势，近年来引起了越来越多的关注。一些研究人员已经开始探索直接在事件数据上进行预训练。然而，这些努力往往无法建立与RGB帧之间的强烈联系，限制了其在多模态融合场景中的应用。为了解决这些问题，我们提出了一种新颖的CM3AE预训练框架，用于RGB-事件感知。该框架接受多模态/视图的数据作为输入，包括RGB图像、事件图像和事件体素，为基于事件的和RGB-事件融合的下游任务提供了强大的支持。具体而言，我们设计了一个多模态融合重构模块，该模块从融合的多模态特征中重构原始图像，显式地增强了模型在聚合跨模态互补信息方面的能力。此外，我们采用了多模态对比学习策略，在共享的潜在空间中对齐跨模态特征表示，这有效增强了模型在多模态理解和捕获全局依赖方面的能力。我们构建了一个包含2,535,759个RGB-事件数据对的大规模数据集用于预训练。在五个下游任务上的广泛实验充分证明了CM3AE的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/CM3AE 发布。