摘要
arXiv:2502.03979v2 宣告类型: 替换-交叉
摘要:音乐情感识别(MER)中最具有挑战性的问题之一来自于情感标签在不同数据集中关于情感表示的异质性,包括分类标签(例如,快乐、悲伤)与维度标签(例如,价值-唤醒)。在这篇论文中,我们提出了一种统一的多任务学习框架,该框架结合了这两种类型的标签,并且能够同时在多个数据集上进行训练。该框架使用了一种有效的输入表示,结合了音乐特征(即,调式和和弦)和MERT嵌入。此外,还采用知识蒸馏方法,将单独训练的教师模型的知识转移到学生模型中,从而增强其在多个任务上的泛化能力。为了验证我们提出的框架,我们在多种数据集上进行了广泛的实验,包括MTG-Jamendo、DEAM、PMEmo和EmoMusic。根据我们的实验结果,音乐特征的加入、多任务学习和知识蒸馏显著提高了性能。特别是,我们的模型在MTG-Jamendo数据集上的表现优于包括MediaEval 2021竞赛中表现最好的模型在内的最先进的模型。我们的工作通过允许在统一框架中共用分类和维度情感标签,对MER做出了重要贡献,从而使得跨数据集训练成为可能。