LLM2D

摘要

基于联合嵌入预测架构的去噪模型（D-JEPA），一个自回归模型，在条件类别图像生成方面表现出色。然而，在高分辨率文本到图像生成中应用下一个token预测仍未得到充分探索。本文介绍了D-JEPA·T2I，它是D-JEPA的扩展，结合了流匹配损失，旨在实现数据高效的连续分辨率学习。D-JEPA·T2I利用多模态视觉Transformer有效地整合文本和视觉特征，并采用视觉旋转位置嵌入（VoPE）来促进连续分辨率学习。此外，我们设计了一种数据反馈机制，显著提高了数据利用效率。我们首次通过下一个token预测实现了最先进的**高分辨率**图像合成。实验代码和预训练模型将在\url{https://d-jepa.github.io/t2i}开源。