LLM2D

摘要

精确且灵活的图像编辑仍然是计算机视觉领域的一项基本挑战。基于修改区域，大多数编辑方法可以分为两种主要类型：全局编辑和局部编辑。本文选择了两种最常见的编辑方法（即文本编辑和拖拽编辑），并分析了它们的缺点。具体而言，文本编辑方法通常无法精确描述所需的修改，而拖拽编辑方法则存在歧义。为了解决这些问题，我们提出了 **CLIPDrag**，一种新颖的图像编辑方法，它首次将文本和拖拽信号相结合，以在扩散模型上进行精确且无歧义的操作。为了充分利用这两种信号，我们将文本信号视为全局引导，将拖拽点视为局部信息。然后，我们引入了一种新颖的全局-局部运动监督方法，通过调整像 CLIP 这样的预训练语言-视觉模型，将文本信号整合到现有的基于拖拽的方法中。此外，我们还通过提出一种快速点跟踪方法来解决 CLIPDrag 中收敛速度慢的问题，该方法强制拖拽点朝正确方向移动。大量的实验表明，CLIPDrag 的性能优于现有的单一基于拖拽的方法或基于文本的方法。