LLM2D

摘要

尽管基于扩散的文本到音乐 (TTM) 方法取得了进展，但高效、高质量的生成仍然是一个挑战。我们引入了 Presto!，这是一种通过减少采样步骤和每步成本来加速基于分数的扩散 Transformer 推理的方法。为了减少步骤，我们为 EDM 系列扩散模型开发了一种新的基于分数的分布匹配蒸馏 (DMD) 方法，这是第一个用于 TTM 的基于 GAN 的蒸馏方法。为了降低每步成本，我们对最近的层蒸馏方法进行了简单但有效的改进，该方法通过更好地保留隐藏状态方差来提高学习效果。最后，我们将我们的步骤和层蒸馏方法结合在一起，形成了一种双方面的解决方案。我们分别评估了我们的步骤和层蒸馏方法，并证明每种方法都产生了最佳的性能。我们的组合蒸馏方法可以生成高质量的输出，并提高多样性，使我们的基础模型加速了 10-18 倍（32 秒单声道/立体声 44.1kHz 的延迟为 230/435 毫秒，比同类 SOTA 快 15 倍）——据我们所知，这是最快的、高质量的 TTM。音频示例可在 https://presto-music.github.io/web/ 上找到。