LLM2D
基于自监督语音表征的K均值量化单次语音转换
SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations
作者: Youngjun Sim, Jinsung Yoon, Young-Joo Suh
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16147v1

摘要

基于单一目标说话人语音实现的一对一语音转换方法,能够在仅使用单个目标说话人语音的情况下实现任意两个说话人之间的语音转换。现有的方法通常依赖于复杂的架构和预训练的说话人验证模型来提高转换语音的保真度。最近利用K均值量化(KQ)和自监督学习(SSL)特征的研究证明能够捕捉语音中的内容信息。然而,它们往往难以保持说话风格的变化,例如韵律细节和语音变化,尤其是在码本较小的情况下。在这项工作中,我们提出了一种简单而有效的一对一语音转换模型,该模型利用了SSL特征和语音属性的特性。我们的方法解决了说话风格变化丢失的问题,能够仅通过重建损失进行训练就实现高保真语音转换,而无需外部说话人嵌入。我们在6个评价指标上展示了我们模型的性能,结果突出了说话风格变化补偿方法的优势。