摘要
近年来,生成式模型的进步显著提升了从各种表示中重建音频波形的效率。虽然扩散模型擅长此任务,但由于它们在单个样本点级别进行操作以及需要大量采样步骤,因此存在延迟问题。在本研究中,我们介绍了 RFWave,这是一种最先进的多频带校正流方法,旨在从梅尔谱图或离散声学标记重建高保真音频波形。RFWave 独特地生成复杂的频谱图,并在帧级别进行操作,同时处理所有子频带以提高效率。利用校正流,其目标是直线传输轨迹,RFWave 只需 10 个采样步骤即可实现重建。我们的实证评估表明,RFWave 不仅提供了出色的重建质量,而且还提供了极高的计算效率,使音频生成速度比 GPU 上的实时速度快 160 倍。在线演示可在以下网址获取:https://rfwave-demo.github.io/rfwave/。