摘要
arXiv:2409.11145v2 宣吿類型: replace-cross
摘要:传统的语音增强方法往往通过专注于单一类型的失真来简化恢复任务。处理多种失真的生成模型通常难以进行语音重建和高频谐波,导致呼吸和喘息的伪影,从而降低了重建语音的可理解性。这些模型还具有计算需求高,许多解决方案仅限于输出宽带频率范围,这限制了它们在专业应用中的适用性。为了解决这些挑战,我们提出了Hi-ResLDM,这是一种基于潜在扩散的新颖生成模型,旨在去除多种失真并恢复语音记录至录音室质量,采样率为48kHz。我们将Hi-ResLDM与采用GAN和条件流匹配(CFM)组件的最新方法进行基准测试,展示了其在再生高频带细节方面的优越性能。Hi-ResLDM不仅在非侵入性指标方面表现卓越,而且在人类评估中也始终更受欢迎,并且在侵入性评估中表现出色,使其成为高分辨率语音恢复的理想选择。