摘要
arXiv:2502.05415v1 宣传类型:交叉
摘要:在构建统一的多模态理解和生成模型方面,已经产生了越来越多的研究兴趣,其中 Show-o 站在显著的代表地位,展现出在文本到图像和图像到文本生成方面的巨大潜力。Show-o 的推断过程涉及逐步去噪图像标记和自回归解码文本标记,因此不幸的是,这一过程在两个方面都存在效率问题。本文介绍了 Show-o Turbo 以弥补这一差距。我们首先基于 Show-o 中文本标记的并行解码,为图像和文本的生成确定了一个统一的去噪视角。然后,我们提议将一致性蒸馏(CD),一种缩短扩散模型去噪过程的有效方法,扩展到 Show-o 的多模态去噪轨迹中。我们引入了一条轨迹分割策略和逐步学习过程,以提高训练收敛性。从实验上看,在文本到图像生成中,无需使用无条件引导(CFG),Show-o Turbo 在 4 步采样步骤中获得了 0.625 的 GenEval 分数,优于原始 Show-o 的 8 步和 CFG;在图像到文本生成中,Show-o Turbo 提供了 1.5 倍的加速性能,同时未显著牺牲性能。代码可在 https://github.com/zhijie-group/Show-o-Turbo 获取。