LLM2D
视觉语言智能的火花:用于高效细粒度图像生成的二维自回归Transformer
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
作者: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01912v1

摘要

这项工作通过引入一种名为二维自回归 (DnD) Transformer 的新型模型架构,解决了矢量量化 (VQ) 自回归图像生成的信息损失瓶颈问题。DnD-Transformer 通过引入一个新的自回归方向,即“模型深度”,以及序列长度方向,为图像预测更多代码。与传统的 1D 自回归和以前使用类似 2D 图像分解(如 RQ-Transformer)的工作相比,DnD-Transformer 是一种端到端模型,可以生成更高质量的图像,而模型大小和序列长度保持不变,这为自回归图像生成开辟了新的优化视角。此外,我们的实验表明,DnD-Transformer 的潜力超越了生成自然图像。它甚至可以以自监督的方式生成包含丰富文本和图形元素的图像,展示了对这些组合模态的理解。这在流行的视觉生成模型(如扩散模型)中以前从未得到过证明,表明仅在图像上训练时就产生了视觉语言智能的火花。代码、数据集和模型已在 https://github.com/chenllliang/DnD-Transformer 上公开。