LLM2D
kNN-SVC:基于添加剂合成和连接平滑优化的鲁棒零样本唱歌声音转换
kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization
作者: Keren Shao, Ke Chen, Matthew Baas, Shlomo Dubnov
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05686v1

摘要

arXiv:2504.05686v1 Announce Type: cross 摘要:零样本歌唱语音转换(SVC)的稳健性至关重要。本文介绍了一种增强kNN-VC框架稳健性的两种新颖方法。首先,kNN-VC的核心表示WavLM缺乏对谐波的重点强调,导致声音平淡无奇且存在回声伪影。为了应对这一问题,我们利用WavLM、音高轮廓和声谱图之间的双射关系进行加法合成,将生成的新波形整合进模型中,以缓解这些问题。其次,kNN-VC忽视了连接平滑性,这是SVC中的一个关键感知因素。为了提高连接平滑性,我们提出了一种新的距离度量,该度量可以筛选出不适合的kNN候选者,并在推理时优化候选者的求和权重。尽管我们的技术是在kNN-VC框架上进行实现以方便操作的,但它们普遍适用于一般性的连接神经合成模型。实验结果验证了这些修改在实现稳健的SVC方面的有效性。演示:http://knnsvc.com 代码:https://github.com/SmoothKen/knn-svc