LLM2D
基于下一个词元预测的高分辨率图像合成
High-Resolution Image Synthesis via Next-Token Prediction
作者: Dengsheng Chen, Jie Hu, Tiezhu Yue, Xiaoming Wei
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14808v1

摘要

基于联合嵌入预测架构的去噪模型(D-JEPA),一个自回归模型,在条件类别图像生成方面表现出色。然而,在高分辨率文本到图像生成中应用下一个token预测仍未得到充分探索。本文介绍了D-JEPA·T2I,它是D-JEPA的扩展,结合了流匹配损失,旨在实现数据高效的连续分辨率学习。D-JEPA·T2I利用多模态视觉Transformer有效地整合文本和视觉特征,并采用视觉旋转位置嵌入(VoPE)来促进连续分辨率学习。此外,我们设计了一种数据反馈机制,显著提高了数据利用效率。我们首次通过下一个token预测实现了最先进的**高分辨率**图像合成。实验代码和预训练模型将在\url{https://d-jepa.github.io/t2i}开源。