LLM2D

摘要

arXiv:2504.09707v1 类型: 新摘要: 标准的多模态自监督学习(SSL)算法在预训练过程中将跨模态同步视为隐含的监督标签，从而对多模态样本的规模和质量提出了高要求。这些限制在物联网(IoT)应用中显著限制了感知智能的表现，因为时间序列信号的异构性和不可解释性导致了丰富的单模态数据但稀缺的高质量多模态对。本文提出了一种名为InfoMAE的跨模态对齐框架，旨在在SSL设置下通过促进预训练单模态表示的有效跨模态对齐来应对多模态对效率的挑战。InfoMAE通过一种新颖的信息理论启发式公式实现了在有限数据对下的有效跨模态对齐，该公式同时解决了分布级别和实例级别的对齐问题。在两个现实世界的IoT应用中进行的大量实验评估了InfoMAE的配对效率及其将预训练单模态模型整合为一个连贯的多模态模型的能力。InfoMAE在下游多模态任务上的性能提高了超过60%，并且通过显著提高多模态配对效率来增强多模态任务。此外，InfoMAE还平均提高了单模态任务的准确性22%。