LLM2D

摘要

零样本语音转换 (VC) 旨在将源说话人的音色转换为任意未见过的音色，而不会改变原始语音内容。虽然最近在零样本 VC 方法方面取得了显著进展，但在提高说话人相似度和语音自然度方面仍有很大的改进空间。本文提出了一种名为 Takin-VC 的新型零样本 VC 框架，该框架基于联合混合内容和记忆增强上下文感知音色建模来应对这一挑战。具体来说，首先提出了一种由神经编解码器训练引导的有效混合内容编码器，该编码器利用来自预训练 WavLM 和 HybridFormer 的量化特征来提取源语音的语言内容。随后，我们介绍了一种先进的基于交叉注意力的上下文感知音色建模方法，该方法学习细粒度的、语义相关的目标音色特征。为了进一步提高说话人相似度和实时性能，我们利用条件流匹配模型来重建源语音的梅尔谱图。此外，我们倡导一种高效的记忆增强模块，旨在为流匹配过程生成高质量的条件目标输入，从而提高所提系统的整体性能。实验结果表明，所提出的 Takin-VC 方法优于最先进的零样本 VC 系统，在语音自然度和说话人相似度方面都取得了优异的性能。