LLM2D
DiTTo-TTS:适用于无需领域特定因素的可扩展文本到语音的扩散变换器
DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors
作者: Keon Lee, Dong Won Kim, Jaehyeon Kim, Seungjun Chung, Jaewoong Cho
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.11427v2

摘要

arXiv:2406.11427v2 宣言类型: replace-cross 摘要:大规模潜在扩散模型(LDMs)在各种模态的内容生成方面表现出色,但在文本转语音(TTS)中对音素和时长的依赖限制了其在其他领域的可扩展性和访问性。尽管最近的研究在去除这些领域特定因素方面显示出潜力,但性能仍然不尽如人意。在此工作中,我们引入了DiTTo-TTS,这是一种基于扩散变换器(DiT)的TTS模型,以研究是否可以去除领域特定因素的同时实现TTS的最先进技术性能。通过严格的分析和经验探索,我们发现:(1)经过最少修改的DiT优于U-Net,(2)带有语音长度预测器的变长建模显著优于固定长度方法的结果,以及(3)如言语潜在表示中的语义对齐等条件是进一步改进的关键。通过扩大我们的训练数据到82,000小时,并将模型大小扩大到7.9亿个参数,我们实现了在自然性、清晰度和说话人相似性方面的优越或可比较的零样本性能,所有这些都不依赖于领域特定因素。语音样本可在https://ditto-tts.github.io 获取。