摘要
当前最先进的扩散模型采用包含卷积层和(qkv)自注意力层的 U-Net 架构。U-Net 在处理图像时,会根据每个采样步骤的时间嵌入输入和对应于所需条件生成的类或标题嵌入输入进行条件化。这种条件化涉及对卷积层的缩放和平移操作,但不会直接影响注意力层。虽然这些标准的架构选择无疑是有效的,但没有对注意力层进行条件化感觉很随意,并且可能不是最优的。在这项工作中,我们表明,只需在注意力层添加 LoRA 条件化,而无需更改或调整 U-Net 架构的其他部分,就可以提高图像生成质量。例如,在 EDM 扩散模型中直接添加 LoRA 条件化,对于无条件和类条件 CIFAR-10 生成,可以获得 1.91/1.75 的 FID 分数,优于 1.97/1.79 的基线。