LLM2D

摘要

arXiv:2412.05796v2 通知类型: 替换交叉摘要: 图像标记化，即把原始图像像素转换为紧凑的低维潜在表示的过程，已被证明对于可扩展和高效图像生成至关重要。然而，主流的图像标记化方法通常压缩率有限，使得高分辨率图像生成计算成本高昂。为了解决这一挑战，我们提出利用语言进行高效的图像标记化，并将我们的方法称为语言条件图像标记化 (TexTok)。TexTok 是一个简单而有效的标记化框架，利用语言提供紧凑的高层语义表示。通过将标记化过程与描述性文本描述符进行条件化，TexTok 简化了语义学习，从而使更多的学习能力和标记空间能够用于捕捉细微的视觉细节，从而提高重构质量和压缩率。与没有文本条件的传统标记器相比，TexTok 在 ImageNet-256 和 ImageNet-512 基准测试中分别在不同标记数量的情况下实现了平均 29.2% 和 48.1% 的重构 FID 改进。这些标记化改进始终转化为生成 FID 的 16.3% 和 34.3% 平均改进。通过将 Diffusion Transformer (DiT) 中的传统标记器替换为 TexTok，我们的系统在使用 32 个标记进行 ImageNet-512 时可以实现 93.5 倍的推理加速，同时仍优于原始 DiT。使用标准的 DiT 生成器，TexTok 在 ImageNet-256 和 ImageNet-512 上分别实现了 1.46 和 1.62 的最新 FID 分数。此外，我们在文本到图像生成任务中展示了 TexTok 的优越性，有效地利用了现成的文本描述符进行标记化。项目页面位于: https://kaiwenzha.github.io/textok/。