LLM2D

摘要

arXiv:2410.03355v2 宣告类型: replace-cross 摘要：自回归（AR）模型最近在图像生成领域中引起了关注，经常能够与扩散模型匹敌，甚至在某些情况下超越它们。然而，AR模型的一个主要局限性在于其顺序处理的特性，逐个处理标记，相比之下，生成模型如GAN或基于扩散的方法则更高效。尽管推测性解码已经被证明在加速大型语言模型时有效，通过一次生成多个标记，但在视觉AR模型中的应用仍处于探索阶段。在本文中，我们确定了这一环境中的一种挑战，我们称其为“令牌选择模糊性”，其中视觉AR模型经常将标记的均匀低概率分配给令牌，阻碍了推测性解码的有效性。为了克服这一挑战，我们提出了一种称为LANTERN的宽松接受条件，它利用了潜在空间中令牌的可互换性。这种宽松约束恢复了推测性解码在视觉AR模型中的有效性，使其能够更灵活地使用那些原本会被过早拒绝的候选令牌。此外，通过引入总变差距离界，我们确保这些速度提升不会显著牺牲图像质量或语义一致性。实验结果表明，我们的方法在提供实质性的速度提升方面是有效的。具体而言，当应用于当代视觉AR模型LlamaGen时，与最先进的推测性解码的简单应用相比，LANTERN的速度提升分别为$\mathbf{1.75}\times$和$\mathbf{1.82}\times$，与贪婪解码和随机采样相比分别如此。