摘要
arXiv:2503.17794v2 通告类型: replace-cross
摘要:文本到图像生成模型往往难以处理包含复杂场景、多种具有独特视觉特征和空间关系的物体的长提示。在本文中,我们提出了SCoPE(逐步插值的粗到细提示嵌入),这是一种无需训练的方法,通过逐步细化输入提示的方式改进文本到图像的对齐。给定一个详细的输入提示,我们首先将其分解为多个亚提示,这些亚提示从描述广泛的场景布局逐步演变为高度复杂的细节描述。在推理过程中,我们在这些亚提示之间进行插值,从而逐步将更细粒度的细节引入生成的图像。我们的无需训练的即插即用方法显著增强了提示对齐,在GenAI-Bench数据集中85%的提示上,相对于Stable Diffusion基线在视觉问答(VQA)得分上实现了高达+4%的平均改进。