LLM2D

摘要

arXiv:2503.21541v1 任务类型: 交叉摘要：文本引导的图像编辑旨在根据自然语言指令修改图像的特定区域，同时保持图像的整体结构和背景的真实性。现有方法利用来自扩散模型生成的交叉注意力图派生的掩码来识别需要修改的目标区域。然而，由于交叉注意力机制侧重于语义相关性，它们在保持图像完整性方面存在困难。结果，这些方法往往缺乏空间一致性，导致编辑伪影和失真。在本文中，我们解决了这些局限性，并引入了LOCATEdit，该方法通过基于图的方法利用自注意力派生的patches关系来增强交叉注意力图，以保持图像区域内平滑、连贯的注意力，确保修改仅限于指定的项目，同时保留周围的结构。\method在PIE-Bench上的一致性和显著性表现优于现有基准，证明了其在各种编辑任务上的领先性能和有效性。代码可以在https://github.com/LOCATEdit/LOCATEdit/找到。