LLM2D
GANs的数据清洗
Data Cleansing for GANs
作者: Naoyuki Terashita, Hiroki Ohashi, Satoshi Hara
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00603v1

摘要

arXiv:2504.00603v1 交叉类型公告 摘要:随着生成对抗网络(GANs)的应用扩展,开发一个能在各种生成任务中提高性能的统一方法变得越来越重要。一种适用于任何机器学习任务的有效策略是识别出有害实例,移除这些实例可以改善性能。尽管此前的研究在监督设置中成功估计了这些有害训练实例,但其方法不容易应用于GANs。挑战在于此前方法的两个要求不适用于GANs。首先,此前的方法要求训练实例的缺失直接影响参数。然而,在GANs的训练过程中,实例并不直接影响生成器的参数,因为它们只是被输入判别器。其次,此前的方法假设损失的变化直接量化了实例对模型性能的有害性,而常见的GAN损失并不总是反映出生成性能。为克服第一个挑战,我们提出了一种使用生成器梯度相对于判别器参数的雅可比矩阵(以及反之亦然)进行影响估计的方法。这种雅可比矩阵代表了两个模型之间的间接效果:移除判别器训练中的实例如何改变生成器的参数。第二,我们提出了一个实例评估方案,该方案根据移除实例后预期的GAN评估指标(例如,Inception得分)的变化来衡量每个训练实例的有害性。此外,我们证明了移除识别出的有害实例能显著提高各种GAN评估指标下的生成性能。