LLM2D
面向少数群体的文本到图像生成通过提示优化
Minority-Focused Text-to-Image Generation via Prompt Optimization
作者: Soobin Um, Jong Chul Ye
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2410.07838v3

摘要

arXiv:2410.07838v3 生成类型: replace-cross 摘要: 我们探讨了使用预训练的文本到图像(T2I)隐式扩散模型生成少数样本的问题。在T2I生成的上下文中,少数样本可以定义为生活在文本条件数据分布的低密度区域中的样本。它们对于现代T2I生成器的各种应用(如数据增强和创意AI)具有重要价值。不幸的是,现有的预训练T2I扩散模型主要集中在高密度区域内,这很大程度上是由于引导采样器(如CFG)的影响,这些采样器对于高质量生成是必不可少的。为了应对这一问题,我们提出了一种新型框架来克服T2I扩散模型的高密度关注。具体来说,我们首先开发了一种在线提示优化框架,该框架在推断过程中鼓励出现所需属性,同时保留用户提供的提示的语义内容。随后,我们将这一通用提示优化器定制为一个专门的求解器,通过结合一个精心构建的似然性目标来促进少数特征的生成。在各种类型的T2I模型上进行的广泛实验表明,我们的方法在生成高质量少数样本方面显著优于现有采样器。代码可在 https://github.com/soobin-um/MinorityPrompt 获得。