摘要
arXiv:2409.09337v3 更新类型: 替换交叉
摘要:语音超分辨率(SSR)是通过恢复缺失的高频分量来增强低分辨率语音信号的任务。传统方法通常重建对数梅尔特征,然后通过声音合成器在波形域生成高分辨率语音。然而,由于梅尔特征缺乏相位信息,在重建过程中可能会导致性能下降。受最近Selective State Spaces Models(SSMs)进展的启发,我们提出了一种称为Wave-U-Mamba的方法,直接在时域进行SSR。在我们的比较研究中,包括WSRGlow、NU-Wave 2和AudioSR等模型,Wave-U-Mamba表现出更优的性能,实现了从8 kHz到24 kHz各种低分辨率采样率下最低的对数谱距离(LSD)。此外,使用均意见分数(MOS)进行的人主观评价表明,我们的方法生成的SSR具有自然且类似人类质量的语音。此外,Wave-U-Mamba还在单一A100 GPU上比基线模型快九倍的生成高分辨率语音,参数大小小于基线模型的2%。