LLM2D

摘要

arXiv:2502.05415v1 宣传类型：交叉摘要：在构建统一的多模态理解和生成模型方面，已经产生了越来越多的研究兴趣，其中 Show-o 站在显著的代表地位，展现出在文本到图像和图像到文本生成方面的巨大潜力。Show-o 的推断过程涉及逐步去噪图像标记和自回归解码文本标记，因此不幸的是，这一过程在两个方面都存在效率问题。本文介绍了 Show-o Turbo 以弥补这一差距。我们首先基于 Show-o 中文本标记的并行解码，为图像和文本的生成确定了一个统一的去噪视角。然后，我们提议将一致性蒸馏（CD），一种缩短扩散模型去噪过程的有效方法，扩展到 Show-o 的多模态去噪轨迹中。我们引入了一条轨迹分割策略和逐步学习过程，以提高训练收敛性。从实验上看，在文本到图像生成中，无需使用无条件引导（CFG），Show-o Turbo 在 4 步采样步骤中获得了 0.625 的 GenEval 分数，优于原始 Show-o 的 8 步和 CFG；在图像到文本生成中，Show-o Turbo 提供了 1.5 倍的加速性能，同时未显著牺牲性能。代码可在 https://github.com/zhijie-group/Show-o-Turbo 获取。