摘要
arXiv:2503.18964v1 宣告类型: cross
摘要: 计算机界面正朝着使用多感知方式的方向发展,以实现更顺畅的人机交互。自动情绪识别(AER)的使用可以使交互更加自然和有意义,从而提高用户体验。尽管语音是自动情绪识别中最直接和直观的方式,但它并不可靠,因为人类可以故意篡改语音。另一方面,如EEG等生理模态则更为可靠且无法被篡改。然而,由于需要专门的记录设备,使用EEG在现实场景中并不切实际。本文的一个主要目标是利用EEG模态的可靠性来促进在语音模态上的稳健自动情绪识别。我们的方法在训练过程中同时使用两种模态,即使在没有更可靠的EEG模态的情况下,也能可靠地识别情绪。我们提出了一种两步联合多模态学习方法(JMML),利用了这两项模态内的和之间的特性,构建了情绪嵌入,从而丰富自动情绪识别的性能。在第一步中,使用JEC-SSL,我们分别在每种模态上独立进行模态内学习。随后,使用所提出的深度齐次联合交叉模态自编码器(E-DCC-CAE)的扩展版本进行跨模态学习。该方法通过将这两种模态映射到一个共同表示空间,使得这两种模态尽可能地相关。这些情绪嵌入具有这两种模态的特性,从而提升了用于自动情绪识别的机器学习分类器的性能。实验结果表明了所提出方法的有效性。据我们所知,这是第一次尝试将语音和EEG与联合多模态学习方法结合起来进行可靠的情绪识别。