LLM2D

摘要

基于图像扩散模型的图像编辑技术近期取得了显著进展，然而，这些模型常常难以准确地遵循复杂的编辑指令，并且经常会通过改变原始图像的关键元素来降低保真度。与此同时，视频生成技术也取得了显著进步，涌现出能够有效充当一致且连续的世界模拟器的模型。本文提出将这两个领域融合，利用图像到视频模型进行图像编辑。我们将图像编辑重新定义为一个时间过程，利用预训练的视频模型创建从原始图像到所需编辑结果的平滑过渡。这种方法连续地遍历图像流形，确保编辑的一致性，同时保留原始图像的关键方面。我们的方法在基于文本的图像编辑方面取得了最先进的结果，在编辑精度和图像保持方面都取得了显著改进。