摘要
语音和音乐的情感识别由于其声学重叠而具有相似性,这引起了人们对在这些领域之间转移知识的兴趣。然而,语音和音乐之间共享的声学线索,特别是那些由自监督学习 (SSL) 模型编码的线索,在很大程度上尚未得到探索,因为语音和音乐的 SSL 模型很少应用于跨领域研究。在这项工作中,我们重新审视了情感语音和音乐之间的声学相似性,从分析语音情感识别 (SER) 和音乐情感识别 (MER) 的 SSL 模型的层级行为开始。此外,我们通过比较两阶段微调过程中的几种方法来进行跨领域适应,考察了有效利用音乐进行 SER 和利用语音进行 MER 的方法。最后,我们使用 Frechet 音频距离来探索情感语音和音乐之间的声学相似性,揭示了语音和音乐 SSL 模型中情感偏差的问题。我们的发现表明,虽然语音和音乐 SSL 模型确实捕获了共享的声学特征,但由于其训练策略和领域特异性,它们的行为可能会因不同情感而异。此外,参数高效微调可以通过利用彼此的知识来提高 SER 和 MER 性能。这项研究提供了对情感语音和音乐之间声学相似性的新见解,并突出了跨领域泛化以改进 SER 和 MER 系统的潜力。