LLM2D

摘要

这项工作通过引入一种名为二维自回归 (DnD) Transformer 的新型模型架构，解决了矢量量化 (VQ) 自回归图像生成的信息损失瓶颈问题。DnD-Transformer 通过引入一个新的自回归方向，即“模型深度”，以及序列长度方向，为图像预测更多代码。与传统的 1D 自回归和以前使用类似 2D 图像分解（如 RQ-Transformer）的工作相比，DnD-Transformer 是一种端到端模型，可以生成更高质量的图像，而模型大小和序列长度保持不变，这为自回归图像生成开辟了新的优化视角。此外，我们的实验表明，DnD-Transformer 的潜力超越了生成自然图像。它甚至可以以自监督的方式生成包含丰富文本和图形元素的图像，展示了对这些组合模态的理解。这在流行的视觉生成模型（如扩散模型）中以前从未得到过证明，表明仅在图像上训练时就产生了视觉语言智能的火花。代码、数据集和模型已在 https://github.com/chenllliang/DnD-Transformer 上公开。