LLM2D

摘要

arXiv:2309.14054v2 宣布类型: replace-cross 摘要：由于对隐私和合规性日益增长的担忧，监管生成模型的输出变得尤为重要。为此，本工作的目标是从预训练的生成对抗网络（GAN）中防止生成包含不期望特征的输出，而该预训练模型的底层训练数据集不可访问。我们的方法受到以下观察的启发：生成对抗网络的参数空间存在有意义的方向，可以用来抑制特定的不期望特征。然而，这些方向通常会导致生成样本质量的下降。我们提出的一种两阶段方法，称为“Adapt-then-Unlearn”，在能有效去除不期望特征的同时，还能保持生成样本的质量。在初始阶段，我们根据用户提供的包含不期望特征的负样本集对预训练的GAN进行适应。随后，我们使用正样本集以及排斥正则化器重新训练原始的预训练GAN。该正则化器鼓励学习到的模型参数远离适应模型（第一阶段）的参数，而不牺牲生成质量。我们对所提出的方法提供了理论见解。据我们所知，我们的方法是第一个在高保真GAN（如StyleGAN）领域解决学习遗忘问题的方法。我们通过全面的实验验证了该方法的有效性，包括在MNIST和AFHQ数据集上的类别级学习遗忘和在CelebA-HQ数据集上的特征级学习遗忘任务。我们的代码和实现可在以下链接获得：https://github.com/atriguha/Adapt_Unlearn。