LLM2D

摘要

近年来，自回归 (AR) 模型在图像生成领域备受关注，其性能往往与扩散模型相媲美，甚至超越了后者。然而，AR 模型的一个主要局限性在于其顺序性，即一次处理一个 token，这使得生成速度比 GAN 或基于扩散的方法慢，而这些方法的效率更高。虽然推测解码已被证明可以有效地通过在一次前向传播中生成多个 token 来加速 LLM，但其在视觉 AR 模型中的应用仍未得到充分探索。在这项工作中，我们识别出该环境中的一个挑战，我们将其称为“token 选择歧义”，即视觉 AR 模型经常对 token 赋予均匀的低概率，从而阻碍了推测解码的性能。为了克服这一挑战，我们提出了一种称为 LANTERN 的松弛接受条件，该条件利用了潜在空间中 token 的可互换性。这种松弛通过允许更灵活地使用原本会被过早拒绝的候选 token，恢复了推测解码在视觉 AR 模型中的有效性。此外，通过引入一个总变异距离界限，我们确保这些速度提升是在不显著影响图像质量或语义一致性的情况下实现的。实验结果证明了我们的方法在提供比推测解码显著更快的速度方面的有效性。具体来说，与最先进的推测解码的朴素应用相比，LANTERN 将速度提升了 $\mathbf{1.75}\times$ 和 $\mathbf{1.76}\times$，分别与贪婪解码和随机采样相比，当应用于 LlamaGen，一个当代视觉 AR 模型时。