摘要
arXiv:2505.08622v1 生成类型: 新
摘要: 文本到图像生成模型,如DALL-E和Stable Diffusion,已在广告、个性化媒体和设计原型设计等各种应用中革新了视觉内容创作。然而,要有效地制定文本提示以指导这些模型仍具有挑战性,往往需要大量的尝试与错误。现有的提示反向工程方法,如软提示和硬提示技术,并不十分有效,因为它们的可解释性和不一致的提示生成有限。为了应对这些问题,我们提出了一种基于视觉引导解码(VGD)的方法,这是一种无需梯度的策略,利用大型语言模型(LLMs)和基于CLIP的指导来生成连贯且语义对齐的提示。本质上,VGD利用LLMs的强大文本生成能力来生成人类可读的提示。此外,通过使用CLIP分数来确保与用户指定的视觉概念对齐,VGD提高了提示生成的可解释性、通用性和灵活性,而无需额外的训练。我们的实验表明,VGD在生成可理解且上下文相关性高的提示方面优于现有提示反向工程技术,从而使得与文本到图像模型的交互更加直观和可控。