LLM2D
潜在扩散模型的像素空间后训练
Pixel-Space Post-Training of Latent Diffusion Models
作者: Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17565v1

摘要

近年来,潜在扩散模型 (LDMs) 在图像生成领域取得了重大进展。LDMs 的一个主要优势是它们能够在压缩的潜在空间中运行,从而实现更有效的训练和部署。然而,尽管有这些优势,LDMs 仍然存在挑战。例如,人们观察到 LDMs 经常不完美地生成高频细节和复杂的构图。我们推测这些缺陷的原因之一是 LDMs 的所有预训练和后训练都在潜在空间中完成,而潜在空间的典型空间分辨率比输出图像低 8 × 8。为了解决这个问题,我们建议在后训练过程中添加像素空间监督,以更好地保留高频细节。实验表明,在最先进的 DiT 变换器和 U-Net 扩散模型中,添加像素空间目标显着提高了监督质量微调和基于偏好的后训练,在视觉质量和视觉缺陷指标方面都有大幅提升,同时保持相同的文本对齐质量。