摘要
音乐音色迁移是一项极具挑战性的任务,它需要在保留音频信号旋律结构的同时修改其音色特征。本文提出一种基于双扩散桥的新方法,该方法使用由非配对单音单乐器音频数据组成的CocoChorales数据集进行训练。每个扩散模型都使用高斯先验在特定乐器上进行训练。在推理过程中,一个模型被指定为源模型,用于将输入音频映射到其对应的高斯先验,另一个模型被指定为目标模型,用于从此高斯先验重建目标音频,从而实现音色迁移。我们将我们的方法与现有的无监督音色迁移模型(如VAEGAN和高斯流桥(GFB))进行了比较。实验结果表明,与VAEGAN和GFB相比,我们的方法在Fréchet音频距离(FAD)和旋律保持方面均取得了更好的效果,这体现在较低的音高距离(DPD)上。此外,我们发现高斯先验中的噪声水平σ可以调节以控制旋律保持的程度和音色迁移的量。