摘要
arXiv:2503.23897v1 声明类型: cross
摘要: 文本引导的图像编辑是一项使用户通过自然语言描述修改图像的重要任务。近年来,扩散模型和校正流的发展显著提高了编辑质量,主要依赖反演技术从输入图像中提取结构化的噪声。然而,反演中的不准确性会导致错误传播,引起意外的修改并损害保真度。此外,即使反演完美,文本提示与图像特征之间的纠缠往往会导致在仅想进行局部修改时出现全局变化。为了解决这些挑战,我们提出了一种基于VAR(视觉自回归建模)的文本引导图像编辑框架,该框架消除了显式反演的需要,同时确保精确和受控的修改。我们的方法引入了一种缓存机制,该机制存储了原始图像中的标记索引和概率分布,捕获了源提示与图像之间的关系。使用此缓存,我们设计了一种适应性的细粒度掩蔽策略,能够动态识别并约束修改到相关区域,防止意外更改。标记重组方法进一步细化了编辑过程,增强了多样性和控制性。我们的框架在无需训练的情况下运行,并实现了高保真编辑和更快的推理速度,处理1K分辨率图像只需1.2秒。大量实验表明,与现有的基于扩散和校正流的方法相比,我们的方法在定量指标和视觉质量上均表现相当甚至更优。代码将公开发布。