LLM2D
文本编辑与拖拽编辑相结合,实现精准灵活的图像编辑
Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing
作者: Ziqi Jiang, Zhen Wang, Long Chen
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03097v1

摘要

精确且灵活的图像编辑仍然是计算机视觉领域的一项基本挑战。基于修改区域,大多数编辑方法可以分为两种主要类型:全局编辑和局部编辑。本文选择了两种最常见的编辑方法(即文本编辑和拖拽编辑),并分析了它们的缺点。具体而言,文本编辑方法通常无法精确描述所需的修改,而拖拽编辑方法则存在歧义。为了解决这些问题,我们提出了 **CLIPDrag**,一种新颖的图像编辑方法,它首次将文本和拖拽信号相结合,以在扩散模型上进行精确且无歧义的操作。为了充分利用这两种信号,我们将文本信号视为全局引导,将拖拽点视为局部信息。然后,我们引入了一种新颖的全局-局部运动监督方法,通过调整像 CLIP 这样的预训练语言-视觉模型,将文本信号整合到现有的基于拖拽的方法中。此外,我们还通过提出一种快速点跟踪方法来解决 CLIPDrag 中收敛速度慢的问题,该方法强制拖拽点朝正确方向移动。大量的实验表明,CLIPDrag 的性能优于现有的单一基于拖拽的方法或基于文本的方法。