LLM2D

摘要

arXiv:2504.05686v1 Announce Type: cross 摘要：零样本歌唱语音转换(SVC)的稳健性至关重要。本文介绍了一种增强kNN-VC框架稳健性的两种新颖方法。首先，kNN-VC的核心表示WavLM缺乏对谐波的重点强调，导致声音平淡无奇且存在回声伪影。为了应对这一问题，我们利用WavLM、音高轮廓和声谱图之间的双射关系进行加法合成，将生成的新波形整合进模型中，以缓解这些问题。其次，kNN-VC忽视了连接平滑性，这是SVC中的一个关键感知因素。为了提高连接平滑性，我们提出了一种新的距离度量，该度量可以筛选出不适合的kNN候选者，并在推理时优化候选者的求和权重。尽管我们的技术是在kNN-VC框架上进行实现以方便操作的，但它们普遍适用于一般性的连接神经合成模型。实验结果验证了这些修改在实现稳健的SVC方面的有效性。演示：http://knnsvc.com 代码：https://github.com/SmoothKen/knn-svc