LLM2D

摘要

arXiv:2406.11427v2 宣言类型: replace-cross 摘要：大规模潜在扩散模型（LDMs）在各种模态的内容生成方面表现出色，但在文本转语音（TTS）中对音素和时长的依赖限制了其在其他领域的可扩展性和访问性。尽管最近的研究在去除这些领域特定因素方面显示出潜力，但性能仍然不尽如人意。在此工作中，我们引入了DiTTo-TTS，这是一种基于扩散变换器（DiT）的TTS模型，以研究是否可以去除领域特定因素的同时实现TTS的最先进技术性能。通过严格的分析和经验探索，我们发现：（1）经过最少修改的DiT优于U-Net，（2）带有语音长度预测器的变长建模显著优于固定长度方法的结果，以及（3）如言语潜在表示中的语义对齐等条件是进一步改进的关键。通过扩大我们的训练数据到82,000小时，并将模型大小扩大到7.9亿个参数，我们实现了在自然性、清晰度和说话人相似性方面的优越或可比较的零样本性能，所有这些都不依赖于领域特定因素。语音样本可在https://ditto-tts.github.io 获取。