LLM2D

摘要

arXiv:2503.17794v2 通告类型: replace-cross 摘要：文本到图像生成模型往往难以处理包含复杂场景、多种具有独特视觉特征和空间关系的物体的长提示。在本文中，我们提出了SCoPE（逐步插值的粗到细提示嵌入），这是一种无需训练的方法，通过逐步细化输入提示的方式改进文本到图像的对齐。给定一个详细的输入提示，我们首先将其分解为多个亚提示，这些亚提示从描述广泛的场景布局逐步演变为高度复杂的细节描述。在推理过程中，我们在这些亚提示之间进行插值，从而逐步将更细粒度的细节引入生成的图像。我们的无需训练的即插即用方法显著增强了提示对齐，在GenAI-Bench数据集中85%的提示上，相对于Stable Diffusion基线在视觉问答（VQA）得分上实现了高达+4%的平均改进。