LLM2D

摘要

本文提出了一种数据驱动的方法来训练一个生成对抗网络（GAN），该网络以从目标音频纹理类别训练的音频分类器倒数第二层中提取的“软标签”为条件。我们证明了在这些条件或控制向量之间插值可以实现生成的音频纹理之间的平滑变形，并且与最先进的方法相比，展现出类似或更好的音频纹理变形能力。所提出的方法导致了一个组织良好的潜在空间，该空间生成新颖的音频输出，同时与条件参数的语义保持一致。这朝着设计具有自定义控制的生成式音频模型的通用数据驱动方法迈出了一步，该模型能够遍历分布外区域以进行新颖的声音合成。