LLM2D

摘要

音乐音色迁移是一项极具挑战性的任务，它需要在保留音频信号旋律结构的同时修改其音色特征。本文提出一种基于双扩散桥的新方法，该方法使用由非配对单音单乐器音频数据组成的CocoChorales数据集进行训练。每个扩散模型都使用高斯先验在特定乐器上进行训练。在推理过程中，一个模型被指定为源模型，用于将输入音频映射到其对应的高斯先验，另一个模型被指定为目标模型，用于从此高斯先验重建目标音频，从而实现音色迁移。我们将我们的方法与现有的无监督音色迁移模型（如VAEGAN和高斯流桥（GFB））进行了比较。实验结果表明，与VAEGAN和GFB相比，我们的方法在Fréchet音频距离（FAD）和旋律保持方面均取得了更好的效果，这体现在较低的音高距离（DPD）上。此外，我们发现高斯先验中的噪声水平σ可以调节以控制旋律保持的程度和音色迁移的量。