LLM2D

摘要

近年来，生成式模型的进步显著提升了从各种表示中重建音频波形的效率。虽然扩散模型擅长此任务，但由于它们在单个样本点级别进行操作以及需要大量采样步骤，因此存在延迟问题。在本研究中，我们介绍了 RFWave，这是一种最先进的多频带校正流方法，旨在从梅尔谱图或离散声学标记重建高保真音频波形。RFWave 独特地生成复杂的频谱图，并在帧级别进行操作，同时处理所有子频带以提高效率。利用校正流，其目标是直线传输轨迹，RFWave 只需 10 个采样步骤即可实现重建。我们的实证评估表明，RFWave 不仅提供了出色的重建质量，而且还提供了极高的计算效率，使音频生成速度比 GPU 上的实时速度快 160 倍。在线演示可在以下网址获取：https://rfwave-demo.github.io/rfwave/。