摘要
arXiv:2412.10316v3 宣告类型: replace-cross
摘要:随着基于扩散模型的反转方法和指令驱动方法的发展,图像编辑取得了显著的进步。然而,当前的反转方法在处理大规模修改(如增加或删除对象)时存在困难,这主要是由于反转噪声的结构化性质,这使得实现重大变化变得困难。同时,基于指令的方法往往将用户限制在黑盒操作中,限制了直接与编辑区域和强度的交互。为了解决这些限制,我们提出了BrushEdit,一种新颖的基于补丁的指令引导图像编辑范式,该范式利用多模态大规模语言模型(MLLMs)和图像补丁模型,使自主、用户友好且交互式的自由形式指令编辑成为可能。具体而言,我们设计了一个系统,通过将MLLMs和双分支图像补贴模型集成到代理合作框架中,来进行编辑类别分类、主要对象识别、掩膜获取和编辑区域补片。广泛的实验表明,我们的框架有效地结合了MLLMs和补贴模型,在包括掩膜区域保真度和编辑效果一致性在内的七个指标中取得了出色的表现。