摘要
arXiv:2504.08524v2 通知类型: replace-cross
摘要:语音转换(VC)通过保留内容来将源语音转换为目标语音。然而,源自说话人口腔音色信息会天然地嵌入到内容表示中,导致严重的音色泄露,并降低了与目标说话人的相似度。为此,我们引入了一个残差块到内容提取器中。该残差块由两个加权分支组成:1)基于通用语义字典的内容特征重表达(CFR)模块,提供无音色的内容表示。2)通往原始内容层的跳跃连接,提供补充的细粒度信息。在CFR模块中,通用语义字典中的每个字典条目表示一个音素类别,通过多说话人口头语音进行统计计算,创建一个稳定且说话人无关的语义集。我们引入了一种CFR方法,通过使用相应的音素后验概率作为权重,将每个内容帧表示为字典条目的加权线性组合,从而获得无音色的内容表示。跨各种VC框架的广泛实验表明,我们的方法有效地减轻了音色泄露,并显著提高了与目标说话人的相似度。