摘要
预训练语音模型的持续进化极大地推动了语音情感识别(SER)的发展。然而,目前的研究通常依赖于话语级别的情感标签,无法充分捕捉单个话语中情感的复杂性。在本文中,我们介绍了一种新颖的SER框架GMP-TL,该框架采用基于性别增强的多尺度伪标签(GMP)的迁移学习来缓解这一问题。具体而言,GMP-TL首先使用预训练的HuBERT,实施多任务学习和多尺度k均值聚类以获取帧级GMPs。随后,为了充分利用帧级GMPs和话语级情感标签,提出了一种两阶段模型微调方法以进一步优化GMP-TL。在IEMOCAP上的实验表明,我们的GMP-TL达到了80.0%的加权准确率(WAR)和82.0%的未加权准确率(UAR),在性能上优于最先进的单模态SER方法,同时也取得了与多模态SER方法相当的结果。