摘要
当前最先进的扩散模型采用包含卷积和(qkv)自注意力层的 U-Net 架构。U-Net 处理图像,同时以每个采样步骤的时间嵌入输入和对应于所需条件生成的类别或标题嵌入输入为条件。这种条件化涉及对卷积层的缩放和平移操作,但不会直接影响注意力层。虽然这些标准的架构选择无疑是有效的,但对注意力层不进行条件化感觉是任意的,并且可能不是最佳的。在这项工作中,我们表明,只需在注意力层添加 LoRA 条件化,而无需改变或调整 U-Net 架构的其他部分,就可以提高图像生成质量。例如,在 EDM 扩散模型中添加 LoRA 条件化,对于无条件和类别条件的 CIFAR-10 生成,FID 分数分别为 1.91/1.75,优于基线的 1.97/1.79。