LLM2D
半监督自我学习增强音乐情绪识别
Semi-Supervised Self-Learning Enhanced Music Emotion Recognition
作者: Yifu Sun, Xulong Zhang, Monan Zhou, Wei Li
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2410.21897v2

摘要

arXiv:2410.21897v2 公告类型: replace-cross 摘要: 音乐情绪识别(MER)旨在识别给定音乐作品中传达的情绪。然而,目前在MER领域,可用的公开数据集样本量有限。近期,提出了一种基于段的方法,这种方法在较短的音频段上训练骨干网络,而不是整个音频片段,从而自然地增加了训练样本,而不需要额外的资源。然后,预测的段级结果被聚合以获得整个歌曲的预测。最常用的方法是段继承包含它的片段的标签,但音乐情绪在整个片段中并不是恒定的。这样会导致标签噪声,并使得训练容易过拟合。为了处理标签噪声问题,我们提出了一种半监督自学习(SSSL)方法,该方法可以在自学习的方式下区分带有正确和错误标签的样本,从而有效地利用增加的段级数据。在三个公开的情绪数据集上的实验表明,所提出的方法可以实现更好的或可比较的性能。