摘要
arXiv:2503.21571v1 Announce Type: 横向
摘要:语音自监督学习(SSL)在各种语音处理任务中取得了巨大进展,但在语音增强(SE)方面仍有改进空间。本文提出了BSP-MPNet,这是一种结合了自监督特征和幅度-相位信息的双路径框架。该方法首先应用感知对比拉伸(PCS)算法增强幅度-相位频谱。幅度-相位2D粗略(MP-2DC)编码器然后从增强后的频谱中提取粗略特征。接着,一个特征分离自监督学习(FS-SSL)模型分别生成幅度和相位组件的自监督嵌入。这些嵌入融合以创建跨域特征表示。最后,两个并行递归神经网络增强多注意(REMA)掩码解码器精炼特征,将它们应用于掩码,并重建语音信号。我们使用VoiceBank+DEMAND和WHAMR!数据集评估了BSP-MPNet。实验结果显示,BSP-MPNet在各种噪声条件下均优于现有方法,为自监督语音增强研究提供了新的方向。BSP-MPNet代码的实现已在线可用\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}