LLM2D

摘要

arXiv:2411.07199v2 宣布类型: replace-cross 摘要：通过在自动合成或手动注释的图像编辑配对上训练扩散模型，指令引导的图像编辑方法已经展示了极大的潜力。然而，这些方法仍然远未达到实际生活应用的水平。我们识别出了三个主要的挑战导致了这一差距。首先，现有模型由于偏差的合成过程，其编辑技能有限。其次，这些方法使用的是包含大量噪声和伪影的数据集进行训练。这主要是由于应用了诸如CLIP得分等简单的过滤方法。第三，所有这些数据集都限制在单一的低分辨率和固定的纵横比，限制了其处理实际世界应用场景的灵活性。在本文中，我们提出了\omniedit，这是一种全能编辑器，能够无缝处理七个不同的图像编辑任务，支持任意纵横比。我们的贡献主要有四个方面：（1）\omniedit通过利用七个不同专家模型的监督来确保任务覆盖；（2）我们利用基于大型多模态模型（如GPT-4o）提供的得分的重要性抽样，而不是CLIP得分来提高数据质量；（3）我们提出了一种新的编辑架构——EditNet，大大提高了编辑的成功率；（4）我们提供了不同纵横比的图像，以确保我们的模型可以处理任何野外图像。我们已经准备了一个包含不同纵横比图像的测试集，并附带了多种多样的指令以覆盖所有任务。自动评估和人工评估均表明，\omniedit显著优于所有现有的模型。我们的代码、数据集和模型将可以在https://tiger-ai-lab.github.io/OmniEdit/ 获取。