摘要
arXiv:2502.03979v1 宣告类型:交叉
摘要:音乐情绪识别(MER)中最具挑战性的问题之一来自于情绪标签在不同数据集中情绪表示的异质性,包括类别标签(例如,快乐、悲伤)与维度标签(例如,正向-唤醒)。本文中,我们提出了一种统一的多任务学习框架,该框架结合了这两种类型的情绪标签,因此能够跨多个数据集进行训练。该框架使用了一种有效输入表示,结合了音乐特征(即,调式和和弦)和MERT嵌入。此外,知识蒸馏被用于将单个数据集中训练的教师模型的知识转移到学生模型,这增强了其在多个任务上的泛化能力。为了验证我们所提出的方法,我们在MTG-Jamendo、DEAM、PMEmo和EmoMusic等多个数据集上进行了广泛的实验。根据实验结果,音乐特征的加入、多任务学习和知识蒸馏显著提高了性能。特别是,在MTG-Jamendo数据集上,我们的模型优于MediaEval 2021竞赛表现最好的模型。我们的工作通过在单一统一框架中结合类别和维度情绪标签,为MER做出了重要贡献,从而实现了跨数据集的训练。