LLM2D
progressive提示细化以提高文本到图像生成模型的对齐效果
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models
作者: Ketan Suhaas Saichandran, Xavier Thomas, Prakhar Kaushik, Deepti Ghadiyaram
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2503.17794v3

摘要

arXiv:2503.17794v3 Announce Type: replace-cross 摘要:文本到图像生成模型往往难以处理详细描述复杂场景、多种具有独特视觉特征和空间关系的对象的长提示。本文中,我们提出了一种称为SCoPE(从粗到细提示嵌入的按计划内插)的无需训练的方法,通过逐步细化输入提示的方式,提高文本到图像的对齐度。给定一个详细的输入提示,我们首先将其分解成多个子提示,这些子提示从描述广泛的场景布局发展到描述极为详细的细节。在推理过程中,我们在这些建立的子提示之间进行内插,从而逐步将更细粒度的细节引入生成的图像。我们的无需训练即可插拔的方法显著增强了提示对齐度,在GenAI-Bench数据集中85%的提示上,与Stable Diffusion基线相比,视觉问答(VQA)分数平均提高了4%以上。