LLM2D

摘要

arXiv:2502.12511v2 自监督学习类型: cross 摘要：我们提出了Myna，一种简单而有效的自监督音乐表示学习方法。基于对比学习框架，Myna引入了两个关键创新点：(1) 使用Mel频谱图上的Vision Transformer (ViT) 作为骨干，以及 (2) 一种新颖的数据增强策略——令牌掩码，掩码了90%的频谱图令牌。这些创新提供了有效的效率：(i) 令牌掩码使得每块GPU的批次大小有了显著增加，从前方法（CLMR, MULE）的48或120增加到4096。(ii) 通过避免传统增强，Myna保留了音高敏感性，从而增强了关键任务如调性检测的表现。(iii) 使用垂直块使得模型能够更好地捕捉关键特征，用于调性检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的块，达到了最先进的成果。在单块GPU上训练时，它在平均性能上优于MULE（62M），并与使用16和64块GPU分别训练的MERT-95M相匹敌。此外，它超越了MERT-95M-public，成为在公共可用数据上训练的最佳性能模型。我们发布了我们的代码和模型以促进可重复性并便于未来的研究。