摘要
arXiv:2409.12477v2 通知类型: replace-cross
摘要:建模基础频率(F0)的自然轮廓在音乐音频合成中起着关键作用。然而,在多声部音乐中转录和管理多个F0轮廓是具有挑战性的,且在多声部乐器合成中尚未探索明确的F0轮廓建模。本文介绍了ViolinDiff,一个基于扩散的两阶段合成框架。对于给定的小提琴MIDI文件,第一阶段估计F0轮廓作为音高弯曲信息,第二阶段生成包含这些表达细节的梅尔频谱图。定量指标和听感测试结果表明,所提出的模型生成的小提琴声音比未进行明确音高弯曲建模的模型更加真实。在线音频样本可在daewoung.github.io/ViolinDiff-Demo获取。