摘要
arXiv:2409.12477v2 宣告类型: replace-cross
摘要:模拟基频(F0)的自然轮廓在音乐音频合成中起着关键作用。然而,在多声部音乐中转录和管理多个F0轮廓具有挑战性,而且显式的F0轮廓建模尚未应用于多声部乐器合成。在本文中,我们提出了一种基于扩散的两阶段合成框架 ViolinDiff。对于给定的小提琴MIDI文件,第一阶段估计F0轮廓作为音高弯曲信息,第二阶段生成包含这些表达性细节的梅尔频谱图。定量指标和听觉测试结果表明,所提出的模型生成的箫琴声音比未进行显式音高弯曲建模的模型更具有现实感。在线音频样本可在以下网址获取:daewoung.github.io/ViolinDiff-Demo。