LLM2D

摘要

arXiv:2504.08524v2 通知类型: replace-cross 摘要：语音转换（VC）通过保留内容来将源语音转换为目标语音。然而，源自说话人口腔音色信息会天然地嵌入到内容表示中，导致严重的音色泄露，并降低了与目标说话人的相似度。为此，我们引入了一个残差块到内容提取器中。该残差块由两个加权分支组成：1）基于通用语义字典的内容特征重表达（CFR）模块，提供无音色的内容表示。2）通往原始内容层的跳跃连接，提供补充的细粒度信息。在CFR模块中，通用语义字典中的每个字典条目表示一个音素类别，通过多说话人口头语音进行统计计算，创建一个稳定且说话人无关的语义集。我们引入了一种CFR方法，通过使用相应的音素后验概率作为权重，将每个内容帧表示为字典条目的加权线性组合，从而获得无音色的内容表示。跨各种VC框架的广泛实验表明，我们的方法有效地减轻了音色泄露，并显著提高了与目标说话人的相似度。