LLM2D
扩散模型能够解码出独立成分吗?一个理论视角
Can Diffusion Models Disentangle? A Theoretical Perspective
作者: Liming Wang, Muhammad Jehanzeb Mirza, Yishu Gong, Yuan Gong, Jiaqi Zhang, Brian H. Tracey, Katerina Placek, Marco Vilela, James R. Glass
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00220v1

摘要

arXiv:2504.00220v1 Announce Type: 横向 摘要:本文提出了一种新的理论框架,用于理解扩散模型如何学习分离表示。在此框架内,我们建立了通用分离潜在变量模型的可识别性条件,分析了训练动态,并推导了分离潜在子空间模型的采样复杂性界。为了验证我们的理论,我们在包括潜在子空间高斯混合模型的子空间恢复、图像着色、图像去噪以及语音转换(用于语音分类)在内的多种任务和模态下进行了分离性实验。此外,我们的实验表明,受到我们理论启发的训练策略,例如风格指导正则化,能够一致地提高分离性能。