LLM2D

摘要

本文提出了一种新的无监督视听语音增强 (AVSE) 方法，该方法将基于扩散的视听语音生成模型与非负矩阵分解 (NMF) 噪声模型相结合。首先，扩散模型在对应视频数据条件下对干净语音进行预训练，以模拟语音生成分布。然后，将该预训练模型与基于 NMF 的噪声模型配对，以迭代估计干净语音。具体而言，在反向扩散过程中实施了一种基于扩散的后验采样方法，其中在每次迭代后，都会获得语音估计并用于更新噪声参数。实验结果证实，所提出的 AVSE 方法不仅优于其音频专用方法，而且比最近的监督生成 AVSE 方法具有更好的泛化能力。此外，与之前的基于扩散的方法相比，新的推理算法在推理速度和性能之间取得了更好的平衡。