摘要
arXiv:2505.08175v2 宣告类型: replace-cross
摘要:文本到语音系统虽然性能越来越高,但在推理时间上仍然很慢,因此其延迟对于许多创意应用来说是不现实的。我们介绍了Adversarial Relativistic-Contrastive (ARC) 后训练,这是第一个针对扩散/流模型的 adversarial 加速算法,且不基于蒸馏。虽然过去的 adversarial 后训练方法难以与昂贵的蒸馏版本相媲美,但 ARC 后训练是一个简单的过程,即 (1) 将最近的相对 adversarial 表述扩展到扩散/流后训练,并与 (2) 新颖的对比鉴别器目标相结合,以鼓励更好的提示遵从性。我们将 ARC 后训练与对 Stable Audio Open 的一些优化结合,构建了一个能够在 H100 上生成约 75ms 内约 12s 采样率 44.1kHz 的立体声音频,并在移动边缘设备上生成约 7s 的音频,据我们所知,这是最快的文本到语音模型。