LLM2D

摘要

arXiv:2502.16936v2 公告类型: replace-cross 摘要：检测音乐版本（同一作品的不同演绎）是一项具有重要应用价值的挑战性任务。由于存在真实标签，现有方法在曲目级别（例如，整首歌）进行音乐版本匹配。然而，大多数应用要求在片段级别（例如，20秒片段）进行匹配。另外，现有方法依赖于分类和三元组损失，忽略了可以带来有意义改进的较新的损失函数。在本文中，我们提出了一种从弱标注片段学习的方法，以及一种优于已研究替代方案的对比损失变体。前者基于成对片段距离减少，而后者在解耦、超参数和几何考虑的基础上修改了现有损失函数。借助这两个元素，我们不仅在标准的曲目级别评估中取得了最先进的结果，还在片段级别评估中实现了突破性的性能。我们认为，由于这里解决的挑战的一般性，所提出的方法可能在音频或音乐版本匹配之外的领域找到应用。