摘要
生成图像变体,即模型在保留语义上下文的情况下生成输入图像的变体,已引起越来越多的关注。目前的图像变体技术涉及调整文本到图像模型,以根据同一图像的条件重建输入图像。我们首先证明,一个训练用于从冻结嵌入重建输入图像的扩散模型可以重建具有微小变化的图像。其次,受文本到图像模型如何从网络规模的文本图像对中学习的启发,我们探索了一种新的预训练策略,使用大量图像对生成图像变体。我们的扩散模型Semantica接收来自网页的随机(编码)图像作为条件输入,并对来自同一网页的另一个噪声随机图像进行去噪。我们仔细检查了图像编码器的各种设计选择,因为它在从输入图像中提取相关上下文中起着至关重要的作用。经过训练后,Semantica可以通过简单地使用来自该数据集的图像作为输入,自适应地从数据集中生成新图像。最后,我们确定了标准图像一致性度量在评估图像变体方面的局限性,并根据少量样本生成提出了替代度量。