摘要
单次语音转换(VC)旨在仅使用一个语音样本就将任何源语音的音色更改为与目标说话人匹配。现有的基于风格迁移的VC方法依赖于语音表示解纠缠,并且难以准确且独立地编码每个语音成分并有效地将其重新组合成转换后的语音。为了解决这个问题,我们提出了Pureformer-VC,它利用Conformer块构建解纠缠编码器,并利用Zipformer块构建风格迁移解码器作为生成器。在解码器中,我们使用有效的styleformer块将说话人特征有效地整合到生成的语音中。该模型使用生成式VAE损失来编码成分,并使用三重损失进行无监督判别式训练。我们将styleformer方法应用于Zipformer的共享权重以进行风格迁移。实验结果表明,与现有方法相比,该模型在单次语音转换场景中实现了可比的主观评分,并在客观指标方面有所改进。