LLM2D

摘要

arXiv:2503.11562v2 通知类型: 交叉替换摘要：神经音频合成（NAS）模型提供了对高质量、表达性音频生成器的互动音乐控制。尽管这些模型可以实时运行，但它们通常受到高延时的影响，使其不适合进行亲密的音乐互动。在NAS文献中，深度学习模型的架构选择对音频延时的影响尚未得到充分探索。在本文中，我们研究了通常在交互NAS模型中发现的延迟和抖动的来源。然后，我们将这种分析应用于使用Caillon等人在2021年引入的RAVE（一种用于音频波形的卷积变分自动编码器）进行音色转移的任务。最后，我们提出了一种迭代设计方法，以优化延时。这最终得出一个名为BRAVE（Bravely Realtime Audio Variational autoEncoder）的模型，该模型具有低延时，并在音高和音量复制方面表现出色，同时具有与RAVE类似的音色修改能力。我们在此种专门的推断框架中实现了该模型，用于低延时、实时推理，并展示了一个兼容乐器音频信号的原型音频插件。我们希望本文中描述的挑战和指南能够为NAS研究者提供支持，帮助他们在基础层面设计低延时推理模型，从而丰富音乐家的选择可能性。