LLM2D

摘要

arXiv:2410.11097v2 类型: replace-cross 摘要：扩散模型在语音合成任务中表现出了显著的潜力，包括文本到语音（TTS）和语音克隆。然而，它们的去噪迭代过程计算量大，早期的知识蒸馏尝试显示出了持续的质量下降。此外，现有的TTS方法受到非可微分组件或迭代采样的限制，这阻碍了在感知度量中实现真正的端到端优化。我们提出了DMOSpeech，这是一种基于扩散模型的知识蒸馏TTS模型，它独特地实现了比其教师模型更快的推理和更优异的性能。通过使所有模型组件直接具备梯度路径，我们展示了在TTS中首次成功地实现了差分度量的端到端优化，其中包括了连接主义时间分类（CTC）损失和说话人验证（SV）损失。通过广泛的实验验证，结果表明，与传统的TTS方法相比，我们的模型在自然性、可懂性和说话人相似性方面取得了显著改进，同时将推理时间大幅减少。这项工作建立了一种新的框架，通过直接度量优化将语音合成与人类听觉偏好对齐。音频样本可在 https://dmospeech.github.io/ 获取。