LLM2D

摘要

arXiv:2409.09337v3 更新类型: 替换交叉摘要：语音超分辨率（SSR）是通过恢复缺失的高频分量来增强低分辨率语音信号的任务。传统方法通常重建对数梅尔特征，然后通过声音合成器在波形域生成高分辨率语音。然而，由于梅尔特征缺乏相位信息，在重建过程中可能会导致性能下降。受最近Selective State Spaces Models（SSMs）进展的启发，我们提出了一种称为Wave-U-Mamba的方法，直接在时域进行SSR。在我们的比较研究中，包括WSRGlow、NU-Wave 2和AudioSR等模型，Wave-U-Mamba表现出更优的性能，实现了从8 kHz到24 kHz各种低分辨率采样率下最低的对数谱距离（LSD）。此外，使用均意见分数（MOS）进行的人主观评价表明，我们的方法生成的SSR具有自然且类似人类质量的语音。此外，Wave-U-Mamba还在单一A100 GPU上比基线模型快九倍的生成高分辨率语音，参数大小小于基线模型的2%。