LLM2D

摘要

预训练语音模型的持续进化极大地推动了语音情感识别（SER）的发展。然而，目前的研究通常依赖于话语级别的情感标签，无法充分捕捉单个话语中情感的复杂性。在本文中，我们介绍了一种新颖的SER框架GMP-TL，该框架采用基于性别增强的多尺度伪标签（GMP）的迁移学习来缓解这一问题。具体而言，GMP-TL首先使用预训练的HuBERT，实施多任务学习和多尺度k均值聚类以获取帧级GMPs。随后，为了充分利用帧级GMPs和话语级情感标签，提出了一种两阶段模型微调方法以进一步优化GMP-TL。在IEMOCAP上的实验表明，我们的GMP-TL达到了80.0%的加权准确率（WAR）和82.0%的未加权准确率（UAR），在性能上优于最先进的单模态SER方法，同时也取得了与多模态SER方法相当的结果。