LLM2D

摘要

arXiv:2410.21897v2 公告类型: replace-cross 摘要: 音乐情绪识别（MER）旨在识别给定音乐作品中传达的情绪。然而，目前在MER领域，可用的公开数据集样本量有限。近期，提出了一种基于段的方法，这种方法在较短的音频段上训练骨干网络，而不是整个音频片段，从而自然地增加了训练样本，而不需要额外的资源。然后，预测的段级结果被聚合以获得整个歌曲的预测。最常用的方法是段继承包含它的片段的标签，但音乐情绪在整个片段中并不是恒定的。这样会导致标签噪声，并使得训练容易过拟合。为了处理标签噪声问题，我们提出了一种半监督自学习（SSSL）方法，该方法可以在自学习的方式下区分带有正确和错误标签的样本，从而有效地利用增加的段级数据。在三个公开的情绪数据集上的实验表明，所提出的方法可以实现更好的或可比较的性能。