摘要
深度多模态学习通过利用对比学习来捕捉跨模态的显式一对一关系,取得了显著成功。然而,现实世界中的数据往往表现出超越简单成对关联的共享关系。我们提出了 M3CoL,一种多模态混合对比学习方法,用于捕捉多模态数据中固有的细微共享关系。我们的主要贡献是一种基于混合的对比损失,通过将来自一个模态的混合样本与其来自其他模态的对应样本进行对齐,从而学习鲁棒表示,并捕捉它们之间的共享关系。对于多模态分类任务,我们引入了一个框架,该框架将融合模块与单模态预测模块集成在一起,用于训练过程中的辅助监督,并辅以我们提出的基于混合的对比损失。通过对不同数据集(N24News、ROSMAP、BRCA 和 Food-101)进行广泛的实验,我们证明了 M3CoL 有效地捕捉了共享的多模态关系,并在不同领域之间进行了泛化。它在 N24News、ROSMAP 和 BRCA 上优于最先进的方法,而在 Food-101 上取得了相当的性能。我们的工作强调了学习共享关系对于鲁棒多模态学习的重要性,为未来的研究开辟了有希望的途径。