LLM2D
ε-VAE:去噪作为视觉解码
$\epsilon$-VAE: Denoising as Visual Decoding
作者: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04081v1

摘要

在生成式模型中,分词将复杂数据简化为紧凑的结构化表示,创造了一个更高效、更易学习的空间。对于高维视觉数据,它减少了冗余并强调了关键特征,从而实现高质量的生成。现有的视觉分词方法依赖于传统的自动编码器框架,其中编码器将数据压缩为潜在表示,解码器重建原始输入。在这项工作中,我们提出了一种新的视角,将去噪视为解码,从单步重建转变为迭代细化。具体来说,我们将解码器替换为一个扩散过程,该过程在编码器提供的潜在表示的引导下,迭代地细化噪声以恢复原始图像。我们通过评估重建 (rFID) 和生成质量 (FID) 来评估我们的方法,并将其与最先进的自动编码方法进行比较。我们希望这项工作能够为整合迭代生成和自动编码提供新的见解,从而改善压缩和生成。