LLM2D

摘要

arXiv:2410.21897v3 Announce Type: replace-cross 摘要：音乐情绪识别（MER）旨在识别给定音乐作品中传达的情绪。然而，在MER领域，目前可用的公开数据集样本量有限。最近，提出了基于片段的方法，这些方法在较短的音频片段上训练骨干网络，而不是整个音频片段，从而自然地增加了训练样本数量而无需额外资源。然后，将预测的片段级结果聚合以获得整首歌曲的预测。最常用的方法是片段继承包含该片段的剪辑标签，但整个剪辑中的音乐情绪并非始终一致。这样做会导致标签噪声，并使训练容易过拟合。为了解决标签噪声问题，我们提出了一种半监督自我学习（SSSL）方法，该方法可以在自我学习的方式下区分带有正确和错误标签的样本，从而有效地利用扩增的片段级数据。在三个公开的情绪数据集上的实验表明，所提出的方法可以实现更好的或相当的性能。