LLM2D
PoGDiff:产品高斯扩散模型在不平衡文本到图像生成中的应用
PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation
作者: Ziyan Wang, Sizhe Wei, Xiaoming Huo, Hao Wang
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.08106v2

摘要

arXiv:2502.08106v2 宣告类型: replace-cross 摘要:扩散模型在近几年取得了显著的进步。然而,当它们使用不平衡的数据集进行训练或微调时,其性能往往会下降。这种下降主要是由于图像-文本配对中多数类和少数类数据的不均衡表示。在本文中,我们提出了一种通用的微调方法,称为PoGDiff,以解决这一挑战。PoGDiff 不是直接最小化预测分布与真实分布之间的 KL 散度,而是用一个由原始的真实目标与条件于相邻文本嵌入的预测分布组合而成的高斯分布乘积 (PoG) 来替换真实分布。实世界数据集上的实验表明,我们的方法有效地解决了扩散模型中的不平衡问题,提高了生成的准确性和质量。