LLM2D
快速文本到音频生成与对抗后训练
Fast Text-to-Audio Generation with Adversarial Post-Training
作者: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08175v1

摘要

arXiv:2505.08175v1 adversarial 加速类型: 交叉 摘要:尽管文本转音频系统在性能上越来越高,但在推断时间上仍然很慢,因此使其延迟在许多创意应用中变得不实用。我们提出了Adversarial Relativistic-Contrastive (ARC) 后训练,这是第一个基于对抗方法而不是蒸馏的扩散/流动模型的后训练加速算法。虽然以往的对抗后训练方法难以与昂贵的蒸馏方法相比,ARC 后训练是一种简单的程序:(1)将最近的相对对抗形式扩展到扩散/流动后训练,并且(2)结合一种新颖的对比鉴别器目标以鼓励更好的提示一致性。我们将ARC 后训练与Stable Audio Open 的一系列优化相结合,构建了一个能够在H100 上生成约12秒44.1kHz 立体声音频的速度约为75毫秒,以及在移动边缘设备上生成约7秒的速度,据我们所知,这是迄今为止最快的文本转音频模型。