LLM2D

摘要

arXiv:2502.12511v1 自监督表示学习类型: cross 摘要: 我们提出了Myna，一种简单而有效的自监督音乐表示学习方法。该方法基于对比学习框架，引入了两项关键创新：(1) 使用视觉变换器（ViT）作为主干，应用于梅尔频谱图；(2) 一种新颖的数据增强策略——标记掩蔽，掩蔽了频谱图标记的90%。这些创新在有效性和效率方面都表现出色：(i) 标记掩蔽使每GPU的批量大小显著增加，从先前方法（CLMR、MULE）的48或120增加到4096。(ii) 通过避免传统的数据增强方法，Myna保留了音高敏感性，在调式检测等任务中提升了性能。(iii) 使用垂直补丁使模型能够更好地捕捉关键特征以进行调式检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的补丁，实现了最先进的结果。在单个GPU上训练时，它在平均性能上优于MULE（62M），并且与分别在16个和64个GPU上训练的MERT-95M媲美。此外，它也超过了MERT-95M-public，成为基于可公开获取数据训练的最佳性能模型。我们发布我们的代码和模型以促进可再现性并促进未来的研究。