LLM2D

摘要

arXiv:2502.04412v1 宣称类型: cross 摘要：文本到图像生成领域近期取得了突破性的进展，这得益于扩散模型的出现。这些模型展现出一种非凡的能力，能够根据文本提示生成高度艺术化和精细详细的照片。然而，获得预期的生成结果通常需要反复调整文本提示，正如对魔镜施法一般，这是因为当前图像生成模型内在的语义理解能力有限。具体来说，现有的扩散模型使用预训练的编码器结构来编码文本提示输入，而这种结构通常是在有限数量的图像-描述对上进行训练的。基于仅解码器结构的最新大型语言模型（LLMs）展示了强大的语义理解能力，因为它们的架构更适用于大规模无标记者数据的训练。在本工作中，我们提出了通过借用大型语言模型的语义理解能力来增强文本到图像的扩散模型，并设计了一个简单而有效的适配器，使得扩散模型能够与仅解码器结构兼容。同时，我们还提供了各种架构（例如仅编码器、编码器-解码器和仅解码器）的支持理论分析，并进行了广泛的实证评估以验证其有效性。实验结果表明，配备了我们适配器模块的增强模型相比最先进的模型在文本到图像生成的质量和可靠性方面更优越。