摘要
多模态情感识别(MER)在实际场景中面临显著挑战,尤其是在不同模态数据存在缺失或不完整的情况下。为克服这些挑战,研究人员致力于在训练阶段模拟不完整条件,以增强系统的整体鲁棒性。传统方法通常涉及丢弃数据或用零向量替代数据片段来近似这些不完整性。然而,这些方法既不能准确反映现实世界的情况,也无法充分解决噪声数据可用性的问题。例如,模糊的图像不能简单地用零向量替换,同时仍保留信息。为解决这一问题并开发更精确的MER系统,我们引入了一种新的噪声鲁棒MER模型,该模型能有效从噪声数据中学习鲁棒的多模态联合表示。该方法包括两个关键组件:首先,一个噪声调度器调整数据中噪声的类型和级别,以模拟各种现实的不完整情况。其次,采用基于变分自编码器(VAE)的模块从噪声输入中重建这些鲁棒的多模态联合表示。值得注意的是,噪声调度器的引入使得探索现有方法无法实现的一种全新类型的不完整数据条件成为可能。在基准数据集IEMOCAP和CMU-MOSEI上的广泛实验评估证明了噪声调度器的有效性以及我们提出的模型的优异性能。我们的项目已在https://github.com/WooyoohL/Noise-robust_MER公开发布。