LLM2D
跨语言语音情感识别:人类与自监督模型的比较
Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models
作者: Zhichen Han, Tianqi Geng, Hui Feng, Jiahong Yuan, Korin Richmond, Yuanchao Li
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16920v1

摘要

利用自监督学习 (SSL) 模型进行语音情感识别 (SER) 已被证明是有效的,但目前对跨语言场景的研究有限。本研究对人类表现和 SSL 模型进行了比较分析,从逐层分析开始,并探索了单语、跨语言和迁移学习环境中的参数高效微调策略。我们进一步比较了模型和人类在语句级和片段级上的 SER 能力。此外,我们通过人类评估研究了方言对跨语言 SER 的影响。我们的研究结果表明,模型通过适当的知识迁移可以适应目标语言,并实现与母语人士相当的性能。我们还证明了方言对没有先验语言和副语言背景的个体 SER 的重大影响。此外,人类和模型在不同情绪下表现出不同的行为。这些结果为 SSL 模型的跨语言 SER 能力提供了新的见解,突出了它们与人类情绪感知的相似之处和差异。