LLM2D
DMOSpeech:直接度量优化的蒸馏扩散模型在零-shot语音合成中的应用
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis
作者: Yingahao Aaron Li, Rithesh Kumar, Zeyu Jin
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2410.11097v2

摘要

arXiv:2410.11097v2 类型: replace-cross 摘要:扩散模型在语音合成任务中表现出了显著的潜力,包括文本到语音(TTS)和语音克隆。然而,它们的去噪迭代过程计算量大,早期的知识蒸馏尝试显示出了持续的质量下降。此外,现有的TTS方法受到非可微分组件或迭代采样的限制,这阻碍了在感知度量中实现真正的端到端优化。我们提出了DMOSpeech,这是一种基于扩散模型的知识蒸馏TTS模型,它独特地实现了比其教师模型更快的推理和更优异的性能。通过使所有模型组件直接具备梯度路径,我们展示了在TTS中首次成功地实现了差分度量的端到端优化,其中包括了连接主义时间分类(CTC)损失和说话人验证(SV)损失。通过广泛的实验验证,结果表明,与传统的TTS方法相比,我们的模型在自然性、可懂性和说话人相似性方面取得了显著改进,同时将推理时间大幅减少。这项工作建立了一种新的框架,通过直接度量优化将语音合成与人类听觉偏好对齐。音频样本可在 https://dmospeech.github.io/ 获取。