LLM2D

摘要

arXiv:2505.08175v1 adversarial 加速类型: 交叉摘要：尽管文本转音频系统在性能上越来越高，但在推断时间上仍然很慢，因此使其延迟在许多创意应用中变得不实用。我们提出了Adversarial Relativistic-Contrastive (ARC) 后训练，这是第一个基于对抗方法而不是蒸馏的扩散/流动模型的后训练加速算法。虽然以往的对抗后训练方法难以与昂贵的蒸馏方法相比，ARC 后训练是一种简单的程序：（1）将最近的相对对抗形式扩展到扩散/流动后训练，并且（2）结合一种新颖的对比鉴别器目标以鼓励更好的提示一致性。我们将ARC 后训练与Stable Audio Open 的一系列优化相结合，构建了一个能够在H100 上生成约12秒44.1kHz 立体声音频的速度约为75毫秒，以及在移动边缘设备上生成约7秒的速度，据我们所知，这是迄今为止最快的文本转音频模型。