LLM2D

摘要

arXiv:2502.07243v1 Announce Type: cross 摘要：针对特定语音属性（如音色和发音风格）的声音模仿，在语音生成中至关重要。然而，现有的方法高度依赖标注数据，并且在有效分离音色和风格方面存在困难，导致在实现可控生成尤其在零样本场景中遇到挑战。为了解决这些问题，我们提出了一种名为Vevo的多功能零样本语音模仿框架，具有可控的音色和风格。Vevo在两个核心阶段运作：(1) 内容-风格建模：给定文本或语音的内容令牌作为输入，我们利用自回归变换器生成内容-风格令牌，该令牌受到风格参考的提示；(2) 声学建模：给定内容-风格令牌作为输入，我们采用流动匹配变换器产生声学表示，该表示受到音色参考的提示。为了获得语音的内容令牌和内容-风格令牌，我们设计了一种完全自监督的方法，逐步分离语音的音色、风格和语言内容。具体而言，我们采用VQ-VAE作为Hubert的连续隐特征的分词器。我们处理VQ-VAE代码本的词汇量大小作为信息瓶颈，并仔细调整它以获得分离的语音表示。仅在60000小时的有声书语音数据上自监督训练，且在风格特定语料库上未进行任何微调，Vevo在口音和情绪转换任务中匹配或超越了现有方法。此外，Vevo在零样本语音转换和文本转语音任务中的有效性进一步证明了其强大的泛化能力和多功能性。音频样本可在https://versavoice.github.io获取。