摘要
arXiv:2502.16936v2 公告类型: replace-cross
摘要:检测音乐版本(同一作品的不同演绎)是一项具有重要应用价值的挑战性任务。由于存在真实标签,现有方法在曲目级别(例如,整首歌)进行音乐版本匹配。然而,大多数应用要求在片段级别(例如,20秒片段)进行匹配。另外,现有方法依赖于分类和三元组损失,忽略了可以带来有意义改进的较新的损失函数。在本文中,我们提出了一种从弱标注片段学习的方法,以及一种优于已研究替代方案的对比损失变体。前者基于成对片段距离减少,而后者在解耦、超参数和几何考虑的基础上修改了现有损失函数。借助这两个元素,我们不仅在标准的曲目级别评估中取得了最先进的结果,还在片段级别评估中实现了突破性的性能。我们认为,由于这里解决的挑战的一般性,所提出的方法可能在音频或音乐版本匹配之外的领域找到应用。