摘要
arXiv:2503.11562v2 通知类型: 交叉替换
摘要:神经音频合成(NAS)模型提供了对高质量、表达性音频生成器的互动音乐控制。尽管这些模型可以实时运行,但它们通常受到高延时的影响,使其不适合进行亲密的音乐互动。在NAS文献中,深度学习模型的架构选择对音频延时的影响尚未得到充分探索。在本文中,我们研究了通常在交互NAS模型中发现的延迟和抖动的来源。然后,我们将这种分析应用于使用Caillon等人在2021年引入的RAVE(一种用于音频波形的卷积变分自动编码器)进行音色转移的任务。最后,我们提出了一种迭代设计方法,以优化延时。这最终得出一个名为BRAVE(Bravely Realtime Audio Variational autoEncoder)的模型,该模型具有低延时,并在音高和音量复制方面表现出色,同时具有与RAVE类似的音色修改能力。我们在此种专门的推断框架中实现了该模型,用于低延时、实时推理,并展示了一个兼容乐器音频信号的原型音频插件。我们希望本文中描述的挑战和指南能够为NAS研究者提供支持,帮助他们在基础层面设计低延时推理模型,从而丰富音乐家的选择可能性。