LLM2D
使用通用语义映射残差块减轻音色泄漏的语音转换
Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion
作者: Na Li, Chuke Wang, Yu Gu, Zhifeng Li
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08524v1

摘要

arXiv:2504.08524v1 语音转换类型: 交叉 摘要: 语音转换(VC)通过保留内容将源语音转换为目标音色。然而,源说话人的音色信息不可避免地嵌入在内容表示中,导致显著的音色泄漏,并降低与目标说话人的相似度。为了解决这一问题,我们在内容提取器中引入了一个残差块。该残差块由两个加权分支组成:1) 以通用语义词典为基础的内容特征重新表示(CFR)模块,提供无音色的内容表示。2) 对原始内容层的跳跃连接,提供补充的细粒度信息。在CFR模块中,通用语义词典中的每个词典条目代表一个音素类别,通过从多个说话人的语音中进行统计计算得出,形成一个稳定且说话人独立的语义集。我们引入了一种CFR方法,通过使用相应音素后验概率作为权重,将每个内容帧表示为词典条目的加权线性组合,以获得无音色的内容表示。在各种语音转换框架中的广泛实验表明,我们的方法有效地减轻了音色泄漏,并显著提高了与目标说话人的相似度。