LLM2D
基于 Mamba 的半监督唱歌旋律提取网络,采用置信二元正则化
A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization
作者: Xiaoliang He, Kangjie Dong, Jingkai Cao, Shuai Yu, Wei Li, Yi Yu
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08681v1

摘要

arXiv:2505.08681v1 宣布类型: cross 摘要: 歌声旋律提取(SME)是音乐信息检索领域的一个关键任务。然而,现有的方法面临几个限制:首先,先前的模型使用变换器来捕捉上下文依赖性,这导致了推理阶段的低效率,需要进行二次计算。其次,先前的研究通常依赖于基于频率的监督方法来估计基础频率(f0),忽略了实际的音乐表演基于音符。再次,变换器通常需要大量的标注数据才能达到最佳性能,但SME任务缺乏足够的标注数据。为了解决这些问题,在本文中,我们提出了一种基于mamba的网络,称为SpectMamba,用于使用置信二进制正则化的半监督歌声旋律提取。具体而言,我们首先引入视觉mamba以实现计算线性复杂度。然后,我们提出了一种新颖的音符-f0解码器,使模型能够更好地模仿音乐表演。为进一步缓解标注数据的稀缺性,我们引入了一个置信二进制正则化(CBR)模块,通过最大化正确类别的概率来利用未标注数据。所提出的方法在几个公开的数据集上进行了评估,并进行的实验表明了我们提出方法的有效性。