LLM2D
$\epsilon$-VAE:去噪作为视觉解码
$\epsilon$-VAE: Denoising as Visual Decoding
作者: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.04081v2

摘要

arXiv:2410.04081v2 宣布类型: replace-cross 摘要:在生成建模中,分词将复杂的数据简化为紧凑的结构化表示,从而创建一个更高效的可学习空间。对于高维视觉数据,它可以减少冗余并强调关键特征,以实现高质量的生成。当前的视觉分词方法依赖于传统的自编码器框架,其中编码器将数据压缩到潜在表示中,解码器重建原始输入。在这项工作中,我们提出了一个新的视角,通过提出去噪作为解码,将单步重构转变为迭代细化。具体来说,我们用一个扩散过程替代解码器,该过程根据编码器提供的潜在表示逐步细化噪声以恢复原始图像。我们通过评估重构(rFID)和生成质量(FID)来评估我们的方法,并将其与最先进的自编码方法进行比较。通过采用通过扩散进行的迭代重构,我们的自编码器,即$\epsilon$-VAE,实现了高质量的重构,这反过来又通过22%的下游生成质量提升和2.3倍的推理速度提升,提升了生成质量。我们希望这项工作为将迭代生成和自编码集成以提高压缩和生成提供新的见解。