LLM2D

摘要

近年来，潜在扩散模型 (LDMs) 在图像生成领域取得了重大进展。LDMs 的一个主要优势是它们能够在压缩的潜在空间中运行，从而实现更有效的训练和部署。然而，尽管有这些优势，LDMs 仍然存在挑战。例如，人们观察到 LDMs 经常不完美地生成高频细节和复杂的构图。我们推测这些缺陷的原因之一是 LDMs 的所有预训练和后训练都在潜在空间中完成，而潜在空间的典型空间分辨率比输出图像低 8 × 8。为了解决这个问题，我们建议在后训练过程中添加像素空间监督，以更好地保留高频细节。实验表明，在最先进的 DiT 变换器和 U-Net 扩散模型中，添加像素空间目标显着提高了监督质量微调和基于偏好的后训练，在视觉质量和视觉缺陷指标方面都有大幅提升，同时保持相同的文本对齐质量。