LLM2D

摘要

语音和音乐的情感识别由于其声学重叠而具有相似性，这引起了人们对在这些领域之间转移知识的兴趣。然而，语音和音乐之间共享的声学线索，特别是那些由自监督学习 (SSL) 模型编码的线索，在很大程度上尚未得到探索，因为语音和音乐的 SSL 模型很少应用于跨领域研究。在这项工作中，我们重新审视了情感语音和音乐之间的声学相似性，从分析语音情感识别 (SER) 和音乐情感识别 (MER) 的 SSL 模型的层级行为开始。此外，我们通过比较两阶段微调过程中的几种方法来进行跨领域适应，考察了有效利用音乐进行 SER 和利用语音进行 MER 的方法。最后，我们使用 Frechet 音频距离来探索情感语音和音乐之间的声学相似性，揭示了语音和音乐 SSL 模型中情感偏差的问题。我们的发现表明，虽然语音和音乐 SSL 模型确实捕获了共享的声学特征，但由于其训练策略和领域特异性，它们的行为可能会因不同情感而异。此外，参数高效微调可以通过利用彼此的知识来提高 SER 和 MER 性能。这项研究提供了对情感语音和音乐之间声学相似性的新见解，并突出了跨领域泛化以改进 SER 和 MER 系统的潜力。