LLM2D
LANTERN:加速视觉自回归模型的放松 speculative 解码
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding
作者: Doohyuk Jang, Sihwan Park, June Yong Yang, Yeonsung Jung, Jihun Yun, Souvik Kundu, Sung-Yub Kim, Eunho Yang
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2410.03355v2

摘要

arXiv:2410.03355v2 宣告类型: replace-cross 摘要:自回归(AR)模型最近在图像生成领域中引起了关注,经常能够与扩散模型匹敌,甚至在某些情况下超越它们。然而,AR模型的一个主要局限性在于其顺序处理的特性,逐个处理标记,相比之下,生成模型如GAN或基于扩散的方法则更高效。尽管推测性解码已经被证明在加速大型语言模型时有效,通过一次生成多个标记,但在视觉AR模型中的应用仍处于探索阶段。在本文中,我们确定了这一环境中的一种挑战,我们称其为“令牌选择模糊性”,其中视觉AR模型经常将标记的均匀低概率分配给令牌,阻碍了推测性解码的有效性。为了克服这一挑战,我们提出了一种称为LANTERN的宽松接受条件,它利用了潜在空间中令牌的可互换性。这种宽松约束恢复了推测性解码在视觉AR模型中的有效性,使其能够更灵活地使用那些原本会被过早拒绝的候选令牌。此外,通过引入总变差距离界,我们确保这些速度提升不会显著牺牲图像质量或语义一致性。实验结果表明,我们的方法在提供实质性的速度提升方面是有效的。具体而言,当应用于当代视觉AR模型LlamaGen时,与最先进的推测性解码的简单应用相比,LANTERN的速度提升分别为$\mathbf{1.75}\times$和$\mathbf{1.82}\times$,与贪婪解码和随机采样相比分别如此。