LLM2D

摘要

arXiv:2503.21571v1 Announce Type: 横向摘要：语音自监督学习（SSL）在各种语音处理任务中取得了巨大进展，但在语音增强（SE）方面仍有改进空间。本文提出了BSP-MPNet，这是一种结合了自监督特征和幅度-相位信息的双路径框架。该方法首先应用感知对比拉伸（PCS）算法增强幅度-相位频谱。幅度-相位2D粗略（MP-2DC）编码器然后从增强后的频谱中提取粗略特征。接着，一个特征分离自监督学习（FS-SSL）模型分别生成幅度和相位组件的自监督嵌入。这些嵌入融合以创建跨域特征表示。最后，两个并行递归神经网络增强多注意（REMA）掩码解码器精炼特征，将它们应用于掩码，并重建语音信号。我们使用VoiceBank+DEMAND和WHAMR!数据集评估了BSP-MPNet。实验结果显示，BSP-MPNet在各种噪声条件下均优于现有方法，为自监督语音增强研究提供了新的方向。BSP-MPNet代码的实现已在线可用\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}