LLM2D

摘要

arXiv:2502.05512v1 介绍类型: cross 摘要: 近年来，基于大规模语言模型（LLM）的文本到语音（TTS）系统逐渐成为行业主流，得益于其高度自然的声音和强大的零样本语音克隆能力。在这里，我们介绍了IndexTTS系统，该系统主要基于XTTS和Tortoise模型，并加入了一些新颖的改进。具体而言，在中文场景中，我们采用了将字符和拼音结合起来的混合建模方法，使多音字和长尾字的发音可控制。我们还对比了向量量化（VQ）和有限标量化（FSQ）在声学语音令牌编码本方面的应用。为了进一步提高语音克隆的效果和稳定性，我们引入了基于Conformer的语音条件编码器，并用BigVGAN2替换语音编码器。与XTTS相比，它在自然度、内容一致性以及零样本语音克隆方面取得了显著改进。对于开源中流行的一些TTS系统，如Fish-Speech、CosyVoice2、FireRedTTS和F5-TTS，IndexTTS具有较为简单的训练过程、更可控的使用方式和更快的推断速度，同时其性能也超过了这些系统。我们的演示可在https://index-tts.github.io查阅。