摘要
近年来,潜在扩散模型 (LDMs) 在图像生成领域取得了重大进展。LDMs 的一个主要优势是它们能够在压缩的潜在空间中运行,从而实现更有效的训练和部署。然而,尽管有这些优势,LDMs 仍然存在挑战。例如,人们观察到 LDMs 经常不完美地生成高频细节和复杂的构图。我们推测这些缺陷的原因之一是 LDMs 的所有预训练和后训练都在潜在空间中完成,而潜在空间的典型空间分辨率比输出图像低 8 × 8。为了解决这个问题,我们建议在后训练过程中添加像素空间监督,以更好地保留高频细节。实验表明,在最先进的 DiT 变换器和 U-Net 扩散模型中,添加像素空间目标显着提高了监督质量微调和基于偏好的后训练,在视觉质量和视觉缺陷指标方面都有大幅提升,同时保持相同的文本对齐质量。