摘要
arXiv:2412.05796v2 通知类型: 替换交叉
摘要: 图像标记化,即把原始图像像素转换为紧凑的低维潜在表示的过程,已被证明对于可扩展和高效图像生成至关重要。然而,主流的图像标记化方法通常压缩率有限,使得高分辨率图像生成计算成本高昂。为了解决这一挑战,我们提出利用语言进行高效的图像标记化,并将我们的方法称为语言条件图像标记化 (TexTok)。TexTok 是一个简单而有效的标记化框架,利用语言提供紧凑的高层语义表示。通过将标记化过程与描述性文本描述符进行条件化,TexTok 简化了语义学习,从而使更多的学习能力和标记空间能够用于捕捉细微的视觉细节,从而提高重构质量和压缩率。与没有文本条件的传统标记器相比,TexTok 在 ImageNet-256 和 ImageNet-512 基准测试中分别在不同标记数量的情况下实现了平均 29.2% 和 48.1% 的重构 FID 改进。这些标记化改进始终转化为生成 FID 的 16.3% 和 34.3% 平均改进。通过将 Diffusion Transformer (DiT) 中的传统标记器替换为 TexTok,我们的系统在使用 32 个标记进行 ImageNet-512 时可以实现 93.5 倍的推理加速,同时仍优于原始 DiT。使用标准的 DiT 生成器,TexTok 在 ImageNet-256 和 ImageNet-512 上分别实现了 1.46 和 1.62 的最新 FID 分数。此外,我们在文本到图像生成任务中展示了 TexTok 的优越性,有效地利用了现成的文本描述符进行标记化。项目页面位于: https://kaiwenzha.github.io/textok/。