LLM2D
基于弱标注音频片段的监督对比学习及其在音乐版本匹配中的应用
Supervised contrastive learning from weakly-labeled audio segments for musical version matching
作者: Joan Serr\`a, R. Oguz Araz, Dmitry Bogdanov, Yuki Mitsufuji
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2502.16936v2

摘要

arXiv:2502.16936v2 公告类型: replace-cross 摘要:检测音乐版本(同一作品的不同演绎)是一项具有重要应用价值的挑战性任务。由于存在真实标签,现有方法在曲目级别(例如,整首歌)进行音乐版本匹配。然而,大多数应用要求在片段级别(例如,20秒片段)进行匹配。另外,现有方法依赖于分类和三元组损失,忽略了可以带来有意义改进的较新的损失函数。在本文中,我们提出了一种从弱标注片段学习的方法,以及一种优于已研究替代方案的对比损失变体。前者基于成对片段距离减少,而后者在解耦、超参数和几何考虑的基础上修改了现有损失函数。借助这两个元素,我们不仅在标准的曲目级别评估中取得了最先进的结果,还在片段级别评估中实现了突破性的性能。我们认为,由于这里解决的挑战的一般性,所提出的方法可能在音频或音乐版本匹配之外的领域找到应用。