LLM2D

摘要

arXiv:2503.17794v3 Announce Type: replace-cross 摘要：文本到图像生成模型往往难以处理详细描述复杂场景、多种具有独特视觉特征和空间关系的对象的长提示。本文中，我们提出了一种称为SCoPE（从粗到细提示嵌入的按计划内插）的无需训练的方法，通过逐步细化输入提示的方式，提高文本到图像的对齐度。给定一个详细的输入提示，我们首先将其分解成多个子提示，这些子提示从描述广泛的场景布局发展到描述极为详细的细节。在推理过程中，我们在这些建立的子提示之间进行内插，从而逐步将更细粒度的细节引入生成的图像。我们的无需训练即可插拔的方法显著增强了提示对齐度，在GenAI-Bench数据集中85%的提示上，与Stable Diffusion基线相比，视觉问答（VQA）分数平均提高了4%以上。