摘要
arXiv:2410.21897v3 Announce Type: replace-cross
摘要:音乐情绪识别(MER)旨在识别给定音乐作品中传达的情绪。然而,在MER领域,目前可用的公开数据集样本量有限。最近,提出了基于片段的方法,这些方法在较短的音频片段上训练骨干网络,而不是整个音频片段,从而自然地增加了训练样本数量而无需额外资源。然后,将预测的片段级结果聚合以获得整首歌曲的预测。最常用的方法是片段继承包含该片段的剪辑标签,但整个剪辑中的音乐情绪并非始终一致。这样做会导致标签噪声,并使训练容易过拟合。为了解决标签噪声问题,我们提出了一种半监督自我学习(SSSL)方法,该方法可以在自我学习的方式下区分带有正确和错误标签的样本,从而有效地利用扩增的片段级数据。在三个公开的情绪数据集上的实验表明,所提出的方法可以实现更好的或相当的性能。