LLM2D
重新思考去偏差的文本到图像生成训练:释放稳定扩散的潜力
Rethinking Training for De-biasing Text-to-Image Generation: Unlocking the Potential of Stable Diffusion
作者: Eunji Kim, Siwon Kim, Minjun Park, Rahim Entezari, Sungroh Yoon
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2408.12692v2

摘要

arXiv:2408.12692v2 声明类型:替换 摘要:最近在文本转图像模型方面的进展,如稳定扩散模型,显示出显著的人口统计学偏见。现有的去偏见技术严重依赖额外的训练,这会带来高昂的计算成本,并且存在损害核心图像生成功能的风险。这阻碍了它们在实际应用中的广泛应用。在本论文中,我们探讨了如何在无需额外训练的情况下利用稳定扩散模型的未充分利用的潜力来减少偏见。通过我们的分析,我们发现与少数属性相关的初始噪声形成了“少数群体区域”,而不是分散的。我们将这些“少数群体区域”视为在SD中减少偏见的机会。为了释放这一潜力,我们提出了一种名为“弱引导”的新型去偏见方法,精心设计以将随机噪声引导至少数群体区域,同时保持语义完整性。通过在各种版本的SD上的分析和实验,我们证明了我们提出的方法在无需额外训练的情况下有效减少了偏见,同时实现了高效性和核心图像生成功能的保留。