LLM2D
基于扩散的无监督视听语音增强
Diffusion-based Unsupervised Audio-visual Speech Enhancement
作者: Jean-Eudes Ayilo (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH), Xavier Alameda-Pineda (ROBOTLEARN)
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05301v1

摘要

本文提出了一种新的无监督视听语音增强 (AVSE) 方法,该方法将基于扩散的视听语音生成模型与非负矩阵分解 (NMF) 噪声模型相结合。首先,扩散模型在对应视频数据条件下对干净语音进行预训练,以模拟语音生成分布。然后,将该预训练模型与基于 NMF 的噪声模型配对,以迭代估计干净语音。具体而言,在反向扩散过程中实施了一种基于扩散的后验采样方法,其中在每次迭代后,都会获得语音估计并用于更新噪声参数。实验结果证实,所提出的 AVSE 方法不仅优于其音频专用方法,而且比最近的监督生成 AVSE 方法具有更好的泛化能力。此外,与之前的基于扩散的方法相比,新的推理算法在推理速度和性能之间取得了更好的平衡。