LLM2D

摘要

arXiv:2503.21541v2 更新类型: 替换-交叉摘要: 文本指导的图像编辑旨在根据自然语言指令修改图像中的特定区域，同时保持图像的一般结构和背景的真实性。现有方法使用来自扩散模型生成的交叉注意力图衍生的掩码来识别需要修改的目标区域。然而，由于交叉注意力机制侧重于语义相关性，它们难以保持图像的完整性。因此，这些方法往往缺乏空间一致性，导致编辑伪影和失真。在这项工作中，我们解决了这些问题，并引入了LOCATEdit，通过基于图的方法利用自我注意衍生的补丁关系来增强交叉注意力图，以确保图像区域间平滑、连贯的关注度，从而确保修改仅限于指定项目，同时保留周围的结构。LOCATEdit在PIE-Bench上一致地大幅优于现有基线，证明了其在各种编辑任务上的先进性能和有效性。代码可以在https://github.com/LOCATEdit/LOCATEdit/找到。