摘要
使用 StyleGAN 进行可控生成通常需要使用带标签的数据训练模型。然而,对于音频纹理来说,目前缺乏大型语义标签数据集。因此,为了控制生成,我们开发了一种方法,在没有此类标签数据集的情况下,对无条件训练的 StyleGAN 进行语义控制。在本文中,我们提出了一种基于示例的框架,以根据用户定义的语义属性确定音频纹理生成的引导向量。我们的方法利用了无条件训练的 StyleGAN 的语义解耦潜空间。通过使用一些合成示例来指示语义属性的存在或不存在,我们推断出 StyleGAN 潜空间中的引导向量,以便在生成过程中控制该属性。我们的结果表明,我们的框架可以找到用户定义的和感知相关的引导向量,用于音频纹理的可控生成。此外,我们展示了我们的框架在其他任务中的应用,例如选择性语义属性转移。