摘要
从语音中识别多模态情感是情感计算中的一个重要领域。融合多种数据模态并在有限的标注数据下学习表示是一个具有挑战性的任务。本文探索了使用特定模态的“BERT类”预训练自监督学习(SSL)架构来表示语音和文本模态,以用于多模态语音情感识别任务。通过对三个公开数据集(IEMOCAP、CMU-MOSEI 和 CMU-MOSI)进行实验,我们表明,联合微调“BERT类”SSL 架构可以取得最先进 (SOTA) 的结果。我们还评估了两种语音和文本模态融合方法,并表明当使用与 BERT 具有相似架构属性的 SSL 模型时,简单的融合机制可以胜过更复杂的融合机制。