LLM2D

摘要

arXiv:2505.08681v1 宣布类型: cross 摘要: 歌声旋律提取（SME）是音乐信息检索领域的一个关键任务。然而，现有的方法面临几个限制：首先，先前的模型使用变换器来捕捉上下文依赖性，这导致了推理阶段的低效率，需要进行二次计算。其次，先前的研究通常依赖于基于频率的监督方法来估计基础频率（f0），忽略了实际的音乐表演基于音符。再次，变换器通常需要大量的标注数据才能达到最佳性能，但SME任务缺乏足够的标注数据。为了解决这些问题，在本文中，我们提出了一种基于mamba的网络，称为SpectMamba，用于使用置信二进制正则化的半监督歌声旋律提取。具体而言，我们首先引入视觉mamba以实现计算线性复杂度。然后，我们提出了一种新颖的音符-f0解码器，使模型能够更好地模仿音乐表演。为进一步缓解标注数据的稀缺性，我们引入了一个置信二进制正则化（CBR）模块，通过最大化正确类别的概率来利用未标注数据。所提出的方法在几个公开的数据集上进行了评估，并进行的实验表明了我们提出方法的有效性。