LLM2D
$\epsilon$-VAE:去噪作为视觉解码
$\epsilon$-VAE: Denoising as Visual Decoding
作者: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu
发布日期: 2/5/2025
arXiv ID: 2410.04081

摘要

arXiv:2410.04081v2 宣布类型: replace-cross 摘要: 在生成模型中,标记化将复杂的数据简化为紧凑的结构化表示,创建一个更高效、可学习的空间。对于高维度的视觉数据,标记化减少冗余并强调关键特征,以实现高质量的生成。当前的视觉标记化方法依赖于传统的自编码器框架,其中编码器将数据压缩为潜在表示,解码器重建原始输入。在本工作中,我们通过提出去噪作为解码,从单步重构转向迭代精炼,提供了一个新的视角。具体来说,我们用一个扩散过程取代解码器,该过程逐步精炼噪声以恢复原始图像,同时由编码器提供的潜在表示进行指导。我们通过评估重构(rFID)和生成质量(FID)来评估我们的方法,并将其与最先进的自编码方法进行比较。通过采用通过扩散实现的迭代重构,我们的自编码器$\epsilon$-VAE实现了高质量的重构,这反过来提高了下游生成质量22%,并提供了2.3倍的推理速度提升。我们希望这项工作能够为结合迭代生成和自编码以提高压缩和生成提供新的见解。