摘要
利用自监督学习 (SSL) 模型进行语音情感识别 (SER) 已被证明是有效的,但目前对跨语言场景的研究有限。本研究对人类表现和 SSL 模型进行了比较分析,从逐层分析开始,并探索了单语、跨语言和迁移学习环境中的参数高效微调策略。我们进一步比较了模型和人类在语句级和片段级上的 SER 能力。此外,我们通过人类评估研究了方言对跨语言 SER 的影响。我们的研究结果表明,模型通过适当的知识迁移可以适应目标语言,并实现与母语人士相当的性能。我们还证明了方言对没有先验语言和副语言背景的个体 SER 的重大影响。此外,人类和模型在不同情绪下表现出不同的行为。这些结果为 SSL 模型的跨语言 SER 能力提供了新的见解,突出了它们与人类情绪感知的相似之处和差异。