摘要
本文提出了一种名为 UTTS 的全新无监督文本到语音声学模型训练方案,该方案不需要文本-音频对。UTTS 是一种支持零样本语音克隆的多说话人语音合成器,它是在解耦语音表示学习的角度下开发的。该框架为 TTS 推理提供了灵活的选择,包括说话人的持续时间模型、音色特征(身份)和内容。我们利用最近在自监督语音表示学习和语音合成前端技术方面的进展来进行系统开发。具体来说,我们采用我们最近提出的条件解耦顺序变分自动编码器 (C-DSVAE) 作为 UTTS AM 的主干,该编码器在训练期间以无监督对齐 (UA) 作为条件,提供了结构良好的内容表示。对于 UTTS 推理,我们利用词典将输入文本映射到音素序列,该序列被扩展到帧级强制对齐 (FA),并使用说话人相关的持续时间模型。然后,我们开发了一个对齐映射模块,将 FA 转换为 UA。最后,作为自监督 TTS AM 的 C-DSVAE,采用预测的 UA 和目标说话人嵌入来生成梅尔频谱图,该频谱图最终通过神经声码器转换为波形。我们展示了我们的方法如何在 AM 开发阶段不使用配对 TTS 语料库的情况下实现语音合成。实验表明,UTTS 可以合成具有高自然度和清晰度的语音,这通过人工评估和客观评估得到证实。音频样本可在我们的演示页面 https://neurtts.github.io/utts_demo/ 上获得。