LLM2D

摘要

arXiv:2409.06513v3 类型: replace-cross 摘要：本文介绍了一种新的钢琴声音模拟方法。我们提出利用正弦波、瞬态和噪声分解来设计一个可微光谱建模合成器，以复制钢琴音符。三个子模块从钢琴录音中学习这些组件，并生成相应的谐波、瞬态和噪声信号。将模拟过程分解为三个独立可训练的模型，降低了建模任务的复杂性。通过一个由物理公式引导的可微分正弦模型生成准谐波内容，其参数通过音频录音自动估计。噪声子模块使用一个可学习的时间不变滤波器，瞬态通过一个深层卷积网络生成。通过一个基于卷积的网络，从单一音符再现三和弦之间的耦合。结果表明，模型匹配目标的谐波分布，但在预测光谱较高部分的能量时存在更多挑战。瞬态和噪声组件的光谱能分布总体上是准确的。尽管该模型在计算和内存效率方面更具优势，但感知测试揭示了在准确建模音符的起始阶段方面的局限性。尽管如此，该模型在再现单一音符和三和弦方面通常实现了感知上的准确性。