摘要
在生成式模型中,分词将复杂数据简化为紧凑的结构化表示,创造了一个更高效、更易学习的空间。对于高维视觉数据,它减少了冗余并强调了关键特征,从而实现高质量的生成。现有的视觉分词方法依赖于传统的自动编码器框架,其中编码器将数据压缩为潜在表示,解码器重建原始输入。在这项工作中,我们提出了一种新的视角,将去噪视为解码,从单步重建转变为迭代细化。具体来说,我们将解码器替换为一个扩散过程,该过程在编码器提供的潜在表示的引导下,迭代地细化噪声以恢复原始图像。我们通过评估重建 (rFID) 和生成质量 (FID) 来评估我们的方法,并将其与最先进的自动编码方法进行比较。我们希望这项工作能够为整合迭代生成和自动编码提供新的见解,从而改善压缩和生成。