LLM2D

摘要

arXiv:2502.02225v1 Announce Type: cross 摘要：尽管扩散模型在生成高保真图像方面取得了开创性的成功，但其潜在空间仍然相对未被充分探索，尽管该空间具有使图像编辑功能多样化和可解释性的巨大潜力。复杂去噪轨迹和潜在空间的高维度使其极其难以解释。现有方法主要探索扩散模型（DMs）中的U-Net特征空间，而不是潜在空间本身。相比之下，我们直接通过奇异值分解（SVD）调查潜在空间，并发现三个有用的属性，这些属性可以在无需收集数据的前提下控制生成结果，并保持生成图像的身份保真度。基于这些属性，我们提出了一种全新的图像编辑框架，能够在稳定扩散模型中从一对由文本提示预设的潜在代码中学习任意属性。为了验证我们的方法，进行了大量实验以证明其在图像编辑方面的有效性和灵活性。我们不久将发布我们的代码，以促进在这个领域进一步的研究和应用。