摘要
arXiv:2503.21806v1 Announce Type: cross
摘要:跨语言语音情绪识别旨在使用无接触的方法通过不同语言估算发言人的心理状态。然而,声音特征的变异性以及语言多样性对零样本语音情绪识别提出了重大挑战,尤其是在使用多语言数据集的情况下。本文我们提出利用对比学习来细化多语言语音特征,并扩展大型语言模型以实现零样本多语言语音情绪估计。具体而言,我们采用一种新颖的两阶段训练框架对语音信号与情感空间中的语言特征进行对齐,捕获既能反映情感又能脱离语言的语音表示。为了推动该领域的研究,我们引入了一个大规模合成多语言语音情绪数据集M5SER。我们的实验表明,所提出的方法在语音情绪识别和零样本多语言语音情绪识别中都有效,包括以前未见过的数据集和语言。