LLM2D
LOCATEdit: 基于图拉普拉斯优化交叉注意的局部化文本引导图像编辑
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
作者: Achint Soni, Meet Soni, Sirisha Rambhatla
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21541v1

摘要

arXiv:2503.21541v1 任务类型: 交叉 摘要:文本引导的图像编辑旨在根据自然语言指令修改图像的特定区域,同时保持图像的整体结构和背景的真实性。现有方法利用来自扩散模型生成的交叉注意力图派生的掩码来识别需要修改的目标区域。然而,由于交叉注意力机制侧重于语义相关性,它们在保持图像完整性方面存在困难。结果,这些方法往往缺乏空间一致性,导致编辑伪影和失真。在本文中,我们解决了这些局限性,并引入了LOCATEdit,该方法通过基于图的方法利用自注意力派生的patches关系来增强交叉注意力图,以保持图像区域内平滑、连贯的注意力,确保修改仅限于指定的项目,同时保留周围的结构。\method在PIE-Bench上的一致性和显著性表现优于现有基准,证明了其在各种编辑任务上的领先性能和有效性。代码可以在https://github.com/LOCATEdit/LOCATEdit/找到。