LLM2D

摘要

arXiv:2504.08524v1 语音转换类型: 交叉摘要: 语音转换(VC)通过保留内容将源语音转换为目标音色。然而，源说话人的音色信息不可避免地嵌入在内容表示中，导致显著的音色泄漏，并降低与目标说话人的相似度。为了解决这一问题，我们在内容提取器中引入了一个残差块。该残差块由两个加权分支组成：1) 以通用语义词典为基础的内容特征重新表示(CFR)模块，提供无音色的内容表示。2) 对原始内容层的跳跃连接，提供补充的细粒度信息。在CFR模块中，通用语义词典中的每个词典条目代表一个音素类别，通过从多个说话人的语音中进行统计计算得出，形成一个稳定且说话人独立的语义集。我们引入了一种CFR方法，通过使用相应音素后验概率作为权重，将每个内容帧表示为词典条目的加权线性组合，以获得无音色的内容表示。在各种语音转换框架中的广泛实验表明，我们的方法有效地减轻了音色泄漏，并显著提高了与目标说话人的相似度。