LLM2D

摘要

arXiv:2502.02225v1 类型：交叉摘要：尽管扩散模型在生成高保真图像方面取得了突破性的成功，但其潜在空间仍然相对未被充分探索，尽管它在实现多样化和可解释的图像编辑能力方面具有巨大的潜力。噪声去除轨迹的复杂性和潜在空间的高维性使其很难被解释。现有的方法主要探索扩散模型（DMs）中的U-Net特征空间，而不是潜在空间本身。相比之下，我们直接通过奇异值分解（SVD）研究了潜在空间，并发现了三个有用的特点，这些特点可以用于控制生成结果，而不需要收集数据并保持生成图像的身份保真度。基于这些特点，我们提出了一种新的图像编辑框架，能够在稳定扩散模型中从由文本提示指定的一对潜在代码中学习任意属性。为了验证我们的方法，进行了广泛的实验以证明其在图像编辑方面的有效性和灵活性。我们将很快发布我们的代码，以促进该领域进一步的研究和应用。