摘要
随着大数据和大型语言模型时代的到来,零样本个性化快速定制已成为一项重要趋势。本报告介绍了 Takin AudioLLM,这是一系列技术和模型,主要包括 Takin TTS、Takin VC 和 Takin Morphing,专门为有声读物制作而设计。这些模型能够进行零样本语音生成,生成与真人语音几乎无法区分的高质量语音,并帮助用户根据自己的需求定制语音内容。具体而言,我们首先介绍 Takin TTS,这是一种神经编码语言模型,它基于增强的神经语音编码器和多任务训练框架,能够以零样本的方式生成高保真自然语音。对于 Takin VC,我们主张一种有效的音调和内容联合建模方法,以提高说话人相似度,同时倡导基于条件流匹配的解码器以进一步增强其自然度和表现力。最后,我们提出了 Takin Morphing 系统,它采用了高度解耦的先进音调和韵律建模方法,使个人能够以精确且可控的方式使用自己喜欢的音调和韵律来定制语音生成。大量的实验验证了我们的 Takin AudioLLM 系列模型的有效性和鲁棒性。有关详细演示,请访问 https://everest-ai.github.io/takinaudiollm/。