LLM2D

摘要

在生成式模型中，分词将复杂数据简化为紧凑的结构化表示，创造了一个更高效、更易学习的空间。对于高维视觉数据，它减少了冗余并强调了关键特征，从而实现高质量的生成。现有的视觉分词方法依赖于传统的自动编码器框架，其中编码器将数据压缩为潜在表示，解码器重建原始输入。在这项工作中，我们提出了一种新的视角，将去噪视为解码，从单步重建转变为迭代细化。具体来说，我们将解码器替换为一个扩散过程，该过程在编码器提供的潜在表示的引导下，迭代地细化噪声以恢复原始图像。我们通过评估重建 (rFID) 和生成质量 (FID) 来评估我们的方法，并将其与最先进的自动编码方法进行比较。我们希望这项工作能够为整合迭代生成和自动编码提供新的见解，从而改善压缩和生成。