摘要
近年来,VQ-VAE 等图像分词器的进展使得使用自回归方法进行文本到图像的生成成为可能,类似于语言建模。然而,尽管这些方法能够适应各种下游任务,但它们尚未利用预训练的语言模型。在这项工作中,我们通过将预训练的语言模型应用于自回归文本到图像的生成来探索这一差距,发现预训练的语言模型提供的帮助有限。我们通过分析每种模态的标记提供了双方面的解释。首先,我们证明图像标记与文本标记相比具有明显不同的语义,这使得预训练的语言模型在建模它们方面与随机初始化的模型没有区别。其次,图像文本数据集中的文本标记过于简单,与正常的语言模型预训练数据相比,导致语言模型的能力急剧下降。