LLM2D
方向感知对角自回归图像生成
Direction-Aware Diagonal Autoregressive Image Generation
作者: Yijia Xu, Jianzhong Ju, Jian Luan, Jinshi Cui
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2503.11129v2

摘要

arXiv:2503.11129v2 Announce Type: replace-cross 摘要:行间有序的图像标记序列在行结束处表现出显著的欧几里得距离,使得它不适合自回归生成。为了解决这一问题,本文提出了具有方向意识的对角自回归图像生成(DAR)方法,该方法按照对角扫描顺序生成图像标记。提出的对角扫描顺序确保了具有相邻索引的标记保持在近距离内,同时允许因果注意力从更广泛的方向收集信息。此外,引入了两个具有方向意识的模块:4D-RoPE 和方向嵌入,增强了模型处理生成方向频繁变化的能力。为了利用图像分词器的表征能力,我们将其代码簿用作图像标记嵌入。我们提出了不同规模的模型,规模范围从 485M 到 2.0B。在 256×256 ImageNet 基准上,我们的DAR-XL (2.0B) 超越了所有先前的自回归图像生成器,达到了最先进的 FID 分数 1.37。