LLM2D

摘要

arXiv:2505.08175v2 宣告类型: replace-cross 摘要：文本到语音系统虽然性能越来越高，但在推理时间上仍然很慢，因此其延迟对于许多创意应用来说是不现实的。我们介绍了Adversarial Relativistic-Contrastive (ARC) 后训练，这是第一个针对扩散/流模型的 adversarial 加速算法，且不基于蒸馏。虽然过去的 adversarial 后训练方法难以与昂贵的蒸馏版本相媲美，但 ARC 后训练是一个简单的过程，即 (1) 将最近的相对 adversarial 表述扩展到扩散/流后训练，并与 (2) 新颖的对比鉴别器目标相结合，以鼓励更好的提示遵从性。我们将 ARC 后训练与对 Stable Audio Open 的一些优化结合，构建了一个能够在 H100 上生成约 75ms 内约 12s 采样率 44.1kHz 的立体声音频，并在移动边缘设备上生成约 7s 的音频，据我们所知，这是最快的文本到语音模型。