LLM2D
快速文本到语音生成与对抗后训练
Fast Text-to-Audio Generation with Adversarial Post-Training
作者: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08175v2

摘要

arXiv:2505.08175v2 宣告类型: replace-cross 摘要:文本到语音系统虽然性能越来越高,但在推理时间上仍然很慢,因此其延迟对于许多创意应用来说是不现实的。我们介绍了Adversarial Relativistic-Contrastive (ARC) 后训练,这是第一个针对扩散/流模型的 adversarial 加速算法,且不基于蒸馏。虽然过去的 adversarial 后训练方法难以与昂贵的蒸馏版本相媲美,但 ARC 后训练是一个简单的过程,即 (1) 将最近的相对 adversarial 表述扩展到扩散/流后训练,并与 (2) 新颖的对比鉴别器目标相结合,以鼓励更好的提示遵从性。我们将 ARC 后训练与对 Stable Audio Open 的一些优化结合,构建了一个能够在 H100 上生成约 75ms 内约 12s 采样率 44.1kHz 的立体声音频,并在移动边缘设备上生成约 7s 的音频,据我们所知,这是最快的文本到语音模型。