LLM2D
IndexTTS:一个工业级可控且高效的零样本文本到语音系统
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
作者: Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05512v1

摘要

arXiv:2502.05512v1 介绍类型: cross 摘要: 近年来,基于大规模语言模型(LLM)的文本到语音(TTS)系统逐渐成为行业主流,得益于其高度自然的声音和强大的零样本语音克隆能力。在这里,我们介绍了IndexTTS系统,该系统主要基于XTTS和Tortoise模型,并加入了一些新颖的改进。具体而言,在中文场景中,我们采用了将字符和拼音结合起来的混合建模方法,使多音字和长尾字的发音可控制。我们还对比了向量量化(VQ)和有限标量化(FSQ)在声学语音令牌编码本方面的应用。为了进一步提高语音克隆的效果和稳定性,我们引入了基于Conformer的语音条件编码器,并用BigVGAN2替换语音编码器。与XTTS相比,它在自然度、内容一致性以及零样本语音克隆方面取得了显著改进。对于开源中流行的一些TTS系统,如Fish-Speech、CosyVoice2、FireRedTTS和F5-TTS,IndexTTS具有较为简单的训练过程、更可控的使用方式和更快的推断速度,同时其性能也超过了这些系统。我们的演示可在https://index-tts.github.io查阅。