LLM2D
OmniEdit:通过专家监督构建通用图像编辑模型
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
作者: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2411.07199v2

摘要

arXiv:2411.07199v2 宣布类型: replace-cross 摘要:通过在自动合成或手动注释的图像编辑配对上训练扩散模型,指令引导的图像编辑方法已经展示了极大的潜力。然而,这些方法仍然远未达到实际生活应用的水平。我们识别出了三个主要的挑战导致了这一差距。首先,现有模型由于偏差的合成过程,其编辑技能有限。其次,这些方法使用的是包含大量噪声和伪影的数据集进行训练。这主要是由于应用了诸如CLIP得分等简单的过滤方法。第三,所有这些数据集都限制在单一的低分辨率和固定的纵横比,限制了其处理实际世界应用场景的灵活性。在本文中,我们提出了\omniedit,这是一种全能编辑器,能够无缝处理七个不同的图像编辑任务,支持任意纵横比。我们的贡献主要有四个方面:(1)\omniedit通过利用七个不同专家模型的监督来确保任务覆盖;(2)我们利用基于大型多模态模型(如GPT-4o)提供的得分的重要性抽样,而不是CLIP得分来提高数据质量;(3)我们提出了一种新的编辑架构——EditNet,大大提高了编辑的成功率;(4)我们提供了不同纵横比的图像,以确保我们的模型可以处理任何野外图像。我们已经准备了一个包含不同纵横比图像的测试集,并附带了多种多样的指令以覆盖所有任务。自动评估和人工评估均表明,\omniedit显著优于所有现有的模型。我们的代码、数据集和模型将可以在https://tiger-ai-lab.github.io/OmniEdit/ 获取。