摘要
扩散模型已成为一种强大的生成技术,并已发现可应用于各种场景。大多数现有的基础扩散模型主要针对文本引导的视觉生成而设计,不支持多模态条件,而多模态条件对于许多视觉编辑任务至关重要。这种限制阻碍了这些基础扩散模型在视觉生成领域成为像 GPT-4 在自然语言处理领域那样的统一模型。在这项工作中,我们提出了 ACE,一个全能的创建者和编辑器,它在各种视觉生成任务中实现了与那些专家模型相当的性能。为了实现这一目标,我们首先引入了一种名为长上下文条件单元 (LCU) 的统一条件格式,并提出了一种新颖的基于 Transformer 的扩散模型,该模型使用 LCU 作为输入,旨在跨各种生成和编辑任务进行联合训练。此外,我们提出了一种有效的数据收集方法来解决缺乏可用训练数据的问题。它涉及通过基于合成的或基于聚类的管道获取成对图像,并通过利用微调的多模态大型语言模型为这些对提供准确的文本指令。为了全面评估我们模型的性能,我们建立了一个跨各种视觉生成任务的手动标注对数据的基准。广泛的实验结果证明了我们的模型在视觉生成领域的优越性。得益于我们模型的多功能性,我们可以轻松地构建一个多模态聊天系统,该系统可以使用单个模型作为后端来响应任何图像创建的交互式请求,从而避免了视觉代理中通常使用的繁琐管道。代码和模型将在项目页面上提供:https://ali-vilab.github.io/ace-page/。