LLM2D

摘要

在图像编辑中引入用户指定的视觉概念非常实用，因为这些概念比基于文本的描述更精确地传达了用户的意图。我们提出了 FreeEdit，一种实现这种基于参考的图像编辑的新方法，它可以根据用户友好的语言指令准确地从参考图像中复制视觉概念。我们的方法利用多模态指令编码器来编码语言指令，以指导编辑过程。这种隐式定位编辑区域的方式消除了对手动编辑蒙版的需求。为了增强参考细节的重建，我们引入了解耦残差参考注意力 (DRRA) 模块。该模块旨在以残差方式将细节提取器提取的细粒度参考特征集成到图像编辑过程中，而不会干扰原始的自注意力。鉴于现有数据集不适合基于参考的图像编辑任务，特别是由于构建包含参考图像的图像三元组的难度，我们使用新开发的双重重绘方案精心策划了一个高质量数据集 FreeBench。FreeBench 包含编辑前后图像、详细的编辑说明以及保持被编辑对象身份的参考图像，涵盖对象添加、替换和删除等任务。通过在 FreeBench 上进行分阶段训练，然后进行质量调整，FreeEdit 通过便捷的语言指令实现了高质量的零样本编辑。我们进行了广泛的实验来评估 FreeEdit 在多种任务类型中的有效性，证明了其优于现有方法。代码将发布在：https://freeedit.github.io/。