摘要
随着大数据和大型语言模型时代的到来,零样本个性化快速定制已成为一个显著的趋势。在这篇报告中,我们介绍了Takin AudioLLM,一系列主要包括Takin TTS、Takin VC和Takin Morphing的技术和模型,专门为有声读物制作而设计。这些模型能够进行零样本语音生成,生成的高质量语音几乎与真人语音难以区分,并使个人能够根据自己的需求定制语音内容。具体而言,我们首先介绍了Takin TTS,这是一种基于增强神经语音编解码器和多任务训练框架的神经编解码语言模型,能够以零样本方式生成高保真自然语音。对于Takin VC,我们倡导一种有效的内容和音色联合建模方法,以提高说话者相似性,同时倡导基于条件流匹配的解码器,以进一步增强其自然性和表达力。最后,我们提出了Takin Morphing系统,采用高度解耦和先进的音色和韵律建模方法,使个人能够以精确和可控的方式定制语音生成。大量实验验证了我们Takin AudioLLM系列模型的有效性和稳健性。有关详细演示,请参见https://everest-ai.github.io/takinaudiollm/。