摘要
arXiv:2309.14054v2 宣布类型: replace-cross
摘要:由于对隐私和合规性日益增长的担忧,监管生成模型的输出变得尤为重要。为此,本工作的目标是从预训练的生成对抗网络(GAN)中防止生成包含不期望特征的输出,而该预训练模型的底层训练数据集不可访问。我们的方法受到以下观察的启发:生成对抗网络的参数空间存在有意义的方向,可以用来抑制特定的不期望特征。然而,这些方向通常会导致生成样本质量的下降。我们提出的一种两阶段方法,称为“Adapt-then-Unlearn”,在能有效去除不期望特征的同时,还能保持生成样本的质量。在初始阶段,我们根据用户提供的包含不期望特征的负样本集对预训练的GAN进行适应。随后,我们使用正样本集以及排斥正则化器重新训练原始的预训练GAN。该正则化器鼓励学习到的模型参数远离适应模型(第一阶段)的参数,而不牺牲生成质量。我们对所提出的方法提供了理论见解。据我们所知,我们的方法是第一个在高保真GAN(如StyleGAN)领域解决学习遗忘问题的方法。我们通过全面的实验验证了该方法的有效性,包括在MNIST和AFHQ数据集上的类别级学习遗忘和在CelebA-HQ数据集上的特征级学习遗忘任务。我们的代码和实现可在以下链接获得:https://github.com/atriguha/Adapt_Unlearn。