LLM2D

摘要

arXiv:2503.18964v1 宣告类型: cross 摘要: 计算机界面正朝着使用多感知方式的方向发展，以实现更顺畅的人机交互。自动情绪识别(AER)的使用可以使交互更加自然和有意义，从而提高用户体验。尽管语音是自动情绪识别中最直接和直观的方式，但它并不可靠，因为人类可以故意篡改语音。另一方面，如EEG等生理模态则更为可靠且无法被篡改。然而，由于需要专门的记录设备，使用EEG在现实场景中并不切实际。本文的一个主要目标是利用EEG模态的可靠性来促进在语音模态上的稳健自动情绪识别。我们的方法在训练过程中同时使用两种模态，即使在没有更可靠的EEG模态的情况下，也能可靠地识别情绪。我们提出了一种两步联合多模态学习方法（JMML），利用了这两项模态内的和之间的特性，构建了情绪嵌入，从而丰富自动情绪识别的性能。在第一步中，使用JEC-SSL，我们分别在每种模态上独立进行模态内学习。随后，使用所提出的深度齐次联合交叉模态自编码器（E-DCC-CAE）的扩展版本进行跨模态学习。该方法通过将这两种模态映射到一个共同表示空间，使得这两种模态尽可能地相关。这些情绪嵌入具有这两种模态的特性，从而提升了用于自动情绪识别的机器学习分类器的性能。实验结果表明了所提出方法的有效性。据我们所知，这是第一次尝试将语音和EEG与联合多模态学习方法结合起来进行可靠的情绪识别。