摘要
尽管基于扩散的文本到音乐 (TTM) 方法取得了进展,但高效、高质量的生成仍然是一个挑战。我们引入了 Presto!,这是一种通过减少采样步骤和每步成本来加速基于分数的扩散 Transformer 推理的方法。为了减少步骤,我们为 EDM 系列扩散模型开发了一种新的基于分数的分布匹配蒸馏 (DMD) 方法,这是第一个用于 TTM 的基于 GAN 的蒸馏方法。为了降低每步成本,我们对最近的层蒸馏方法进行了简单但有效的改进,该方法通过更好地保留隐藏状态方差来提高学习效果。最后,我们将我们的步骤和层蒸馏方法结合在一起,形成了一种双方面的解决方案。我们分别评估了我们的步骤和层蒸馏方法,并证明每种方法都产生了最佳的性能。我们的组合蒸馏方法可以生成高质量的输出,并提高多样性,使我们的基础模型加速了 10-18 倍(32 秒单声道/立体声 44.1kHz 的延迟为 230/435 毫秒,比同类 SOTA 快 15 倍)——据我们所知,这是最快的、高质量的 TTM。音频示例可在 https://presto-music.github.io/web/ 上找到。