摘要
arXiv:2503.19937v1 Announce Type: cross
摘要:图文生成技术越来越受欢迎,但要生成所需的图像往往需要大量的提示工程。本文探讨了如何从参考图像中解码文本提示,我们将这一过程称为图像反向提示工程。该技术使我们能够从参考图像中获取见解,了解伟大艺术家的创作过程,并生成令人印象深刻的全新图像。为解决这一挑战,我们提出了一种称为自动反向提示优化(ARPO)的方法。具体而言,我们的方法通过逐步模仿梯度提示优化过程将初始提示精炼为高质量提示:1)从当前提示生成重构图像,以实现其指导能力;2)生成文本梯度,这些是候选提示,旨在减少重构图像与参考图像之间的差异;3)使用贪心搜索方法用文本梯度更新当前提示,以最大化提示与参考图像之间的CLIP相似性。我们将ARPO与几种基线方法进行比较,包括手工技巧、基于梯度的提示调整方法、图像字幕和数据驱动的选择方法。无论是定量还是定性结果都表明,我们的ARPO能够快速生成高质量的反向提示。更重要的是,我们可以通过直接编辑这些反向提示轻松创建具有多种风格和内容的新图像。代码将在公开发布。