摘要
arXiv:2409.06513v3 类型: replace-cross
摘要:本文介绍了一种新的钢琴声音模拟方法。我们提出利用正弦波、瞬态和噪声分解来设计一个可微光谱建模合成器,以复制钢琴音符。三个子模块从钢琴录音中学习这些组件,并生成相应的谐波、瞬态和噪声信号。将模拟过程分解为三个独立可训练的模型,降低了建模任务的复杂性。通过一个由物理公式引导的可微分正弦模型生成准谐波内容,其参数通过音频录音自动估计。噪声子模块使用一个可学习的时间不变滤波器,瞬态通过一个深层卷积网络生成。通过一个基于卷积的网络,从单一音符再现三和弦之间的耦合。结果表明,模型匹配目标的谐波分布,但在预测光谱较高部分的能量时存在更多挑战。瞬态和噪声组件的光谱能分布总体上是准确的。尽管该模型在计算和内存效率方面更具优势,但感知测试揭示了在准确建模音符的起始阶段方面的局限性。尽管如此,该模型在再现单一音符和三和弦方面通常实现了感知上的准确性。