LLM2D

摘要

arXiv:2410.05167v2 通知类型: 代替交叉摘要：尽管在基于扩散的方法从文本生成音乐 (TTM) 方面取得了进展，但高效、高质量的生成仍然是一个挑战。我们介绍了 Presto!，一种通过减少采样步骤和每步骤成本来加速基于分数的扩散变换器推理的方法。为了减少步骤，我们开发了一种新的基于 EDM 家族扩散模型的分数基于的分布匹配蒸馏（DMD）方法，这是第一个基于 GAN 的 TTM 蒸馏方法。为了减少每步骤的成本，我们开发了一种简单但强大的改进方法，它是对最近的层蒸馏方法的改进，通过更好地保留隐藏状态方差来提高学习效果。最后，我们将步骤和层蒸馏方法结合起来，形成一种双管齐下的方法。我们独立评估了我们的步骤和层蒸馏方法，并表明两者都达到了最佳性能。我们的综合蒸馏方法可以生成高质量且具有更好多样性的输出，将基模型加速 10-18 倍（32 秒单声道/立体声 44.1kHz 的延迟为 230/435ms，比同类最佳方案快 15 倍）——据我们所知，这是最快的高质量 TTM。可以在此处找到声音示例：https://presto-music.github.io/web/。