摘要
arXiv:2503.11129v2 Announce Type: replace-cross
摘要:行间有序的图像标记序列在行结束处表现出显著的欧几里得距离,使得它不适合自回归生成。为了解决这一问题,本文提出了具有方向意识的对角自回归图像生成(DAR)方法,该方法按照对角扫描顺序生成图像标记。提出的对角扫描顺序确保了具有相邻索引的标记保持在近距离内,同时允许因果注意力从更广泛的方向收集信息。此外,引入了两个具有方向意识的模块:4D-RoPE 和方向嵌入,增强了模型处理生成方向频繁变化的能力。为了利用图像分词器的表征能力,我们将其代码簿用作图像标记嵌入。我们提出了不同规模的模型,规模范围从 485M 到 2.0B。在 256×256 ImageNet 基准上,我们的DAR-XL (2.0B) 超越了所有先前的自回归图像生成器,达到了最先进的 FID 分数 1.37。