LLM2D

摘要

使用 StyleGAN 进行可控生成通常需要使用带标签的数据训练模型。然而，对于音频纹理来说，目前缺乏大型语义标签数据集。因此，为了控制生成，我们开发了一种方法，在没有此类标签数据集的情况下，对无条件训练的 StyleGAN 进行语义控制。在本文中，我们提出了一种基于示例的框架，以根据用户定义的语义属性确定音频纹理生成的引导向量。我们的方法利用了无条件训练的 StyleGAN 的语义解耦潜空间。通过使用一些合成示例来指示语义属性的存在或不存在，我们推断出 StyleGAN 潜空间中的引导向量，以便在生成过程中控制该属性。我们的结果表明，我们的框架可以找到用户定义的和感知相关的引导向量，用于音频纹理的可控生成。此外，我们展示了我们的框架在其他任务中的应用，例如选择性语义属性转移。