摘要
本文旨在解决现实世界录音中的语音增强问题,这些录音通常包含各种形式的失真,例如背景噪声、混响和麦克风伪影。我们重新审视了生成对抗网络 (GAN) 在语音增强中的应用,并从理论上证明 GAN 自然倾向于在条件干净语音分布中寻找最大密度点,我们认为这是语音增强任务的关键。我们研究了各种用于感知损失的特征提取器,以促进对抗训练的稳定性,并开发了一种探测特征空间结构的方法。这促使我们将基于 WavLM 的感知损失集成到 MS-STFT 对抗训练管道中,为语音增强模型创建了一种有效且稳定的训练程序。由此产生的语音增强模型(我们称之为 FINALLY)建立在 HiFi++ 架构之上,并辅以 WavLM 编码器和新颖的训练管道。在各种数据集上的实证结果证实了我们的模型在 48 kHz 下产生清晰、高质量语音的能力,在语音增强领域取得了最先进的性能。