LLM2D
Myna:基于掩码的音乐表示对比学习
Myna: Masking-Based Contrastive Learning of Musical Representations
作者: Ori Yonay, Tracy Hammond, Tianbao Yang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12511v1

摘要

arXiv:2502.12511v1 自监督表示学习类型: cross 摘要: 我们提出了Myna,一种简单而有效的自监督音乐表示学习方法。该方法基于对比学习框架,引入了两项关键创新:(1) 使用视觉变换器(ViT)作为主干,应用于梅尔频谱图;(2) 一种新颖的数据增强策略——标记掩蔽,掩蔽了频谱图标记的90%。这些创新在有效性和效率方面都表现出色:(i) 标记掩蔽使每GPU的批量大小显著增加,从先前方法(CLMR、MULE)的48或120增加到4096。(ii) 通过避免传统的数据增强方法,Myna保留了音高敏感性,在调式检测等任务中提升了性能。(iii) 使用垂直补丁使模型能够更好地捕捉关键特征以进行调式检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的补丁,实现了最先进的结果。在单个GPU上训练时,它在平均性能上优于MULE(62M),并且与分别在16个和64个GPU上训练的MERT-95M媲美。此外,它也超过了MERT-95M-public,成为基于可公开获取数据训练的最佳性能模型。我们发布我们的代码和模型以促进可再现性并促进未来的研究。