LLM2D

摘要

arXiv:2503.20484v1 宣告类型: cross 摘要: 差分模型已经在文本指导的图像转换中生成多样且高质量的图像方面表现出色。然而，在文本提示的表述和参考图像内容的保留方面仍存在改进空间。首先，目标文本提示的变化会显著影响生成图像的质量，用户往往难以构思一个能够完全捕捉输入图像内容的最佳提示。其次，尽管现有的模型能够对参考图像的特定区域引入所需的修改，但它们经常会在不应发生变化的区域引起意想不到的改变。为了解决这些挑战，我们提出了一个基于差分的零样本方法 pix2pix-zeroCon，该方法通过利用块级对比损失消除了额外训练的需求。具体而言，我们根据参考图像和目标提示自动确定文本嵌入空间中的编辑方向。此外，为确保编辑图像中精确的内容和结构保留，我们在预训练的差分模型中引入了跨注意力引导损失和生成图像嵌入与原始图像嵌入之间的块级对比损失。值得注意的是，我们的方法不需要额外的训练，并直接在预训练的文本到图像差分模型上运行。广泛的实验表明，我们的方法在图像到图像的转换中超过了现有模型，实现了更高的保真度和可控性。