LLM2D
少数群体提示:通过提示优化实现文本到少数群体图像生成
MinorityPrompt: Text to Minority Image Generation via Prompt Optimization
作者: Soobin Um, Jong Chul Ye
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07838v1

摘要

我们研究了使用预训练的文本到图像 (T2I) 潜在扩散模型生成少数样本。在 T2I 生成中,少数实例可以定义为存在于文本条件数据分布的低密度区域的实例。它们对于现代 T2I 生成器的各种应用非常有价值,例如数据增强和创意 AI。不幸的是,现有的预训练 T2I 扩散模型主要关注高密度区域,这在很大程度上是由于引导采样器(如 CFG)的影响,这些采样器对于生成高质量的生成至关重要。为了解决这个问题,我们提出了一种新的框架来对抗 T2I 扩散模型的高密度关注。具体来说,我们首先开发了一个在线提示优化框架,该框架可以在推理过程中鼓励期望属性的出现,同时保留用户提供的提示的语义内容。随后,我们将这种通用提示优化器定制成一个专门的求解器,通过结合精心设计的似然目标来促进少数特征的生成。我们在各种类型的 T2I 模型上进行的综合实验表明,与现有采样器相比,我们的方法显着增强了生成高质量少数实例的能力。