LLM2D

摘要

本文旨在解决现实世界录音中的语音增强问题，这些录音通常包含各种形式的失真，例如背景噪声、混响和麦克风伪影。我们重新审视了生成对抗网络 (GAN) 在语音增强中的应用，并从理论上证明 GAN 自然倾向于在条件干净语音分布中寻找最大密度点，我们认为这是语音增强任务的关键。我们研究了各种用于感知损失的特征提取器，以促进对抗训练的稳定性，并开发了一种探测特征空间结构的方法。这促使我们将基于 WavLM 的感知损失集成到 MS-STFT 对抗训练管道中，为语音增强模型创建了一种有效且稳定的训练程序。由此产生的语音增强模型（我们称之为 FINALLY）建立在 HiFi++ 架构之上，并辅以 WavLM 编码器和新颖的训练管道。在各种数据集上的实证结果证实了我们的模型在 48 kHz 下产生清晰、高质量语音的能力，在语音增强领域取得了最先进的性能。