LLM2D
图像流形上的路径:基于视频生成的图像编辑
Pathways on the Image Manifold: Image Editing via Video Generation
作者: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensa\"id, Ron Kimmel
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16819v1

摘要

基于图像扩散模型的图像编辑技术近期取得了显著进展,然而,这些模型常常难以准确地遵循复杂的编辑指令,并且经常会通过改变原始图像的关键元素来降低保真度。与此同时,视频生成技术也取得了显著进步,涌现出能够有效充当一致且连续的世界模拟器的模型。本文提出将这两个领域融合,利用图像到视频模型进行图像编辑。我们将图像编辑重新定义为一个时间过程,利用预训练的视频模型创建从原始图像到所需编辑结果的平滑过渡。这种方法连续地遍历图像流形,确保编辑的一致性,同时保留原始图像的关键方面。我们的方法在基于文本的图像编辑方面取得了最先进的结果,在编辑精度和图像保持方面都取得了显著改进。