摘要
arXiv:2502.12511v2 自监督学习类型: cross
摘要:我们提出了Myna,一种简单而有效的自监督音乐表示学习方法。基于对比学习框架,Myna引入了两个关键创新点:(1) 使用Mel频谱图上的Vision Transformer (ViT) 作为骨干,以及 (2) 一种新颖的数据增强策略——令牌掩码,掩码了90%的频谱图令牌。这些创新提供了有效的效率:(i) 令牌掩码使得每块GPU的批次大小有了显著增加,从前方法(CLMR, MULE)的48或120增加到4096。(ii) 通过避免传统增强,Myna保留了音高敏感性,从而增强了关键任务如调性检测的表现。(iii) 使用垂直块使得模型能够更好地捕捉关键特征,用于调性检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的块,达到了最先进的成果。在单块GPU上训练时,它在平均性能上优于MULE(62M),并与使用16和64块GPU分别训练的MERT-95M相匹敌。此外,它超越了MERT-95M-public,成为在公共可用数据上训练的最佳性能模型。我们发布了我们的代码和模型以促进可重复性并便于未来的研究。