LLM2D

摘要

从人类文本生成逼真的图像，是计算机视觉领域最具挑战性的问题之一。现有的文本到图像方法可以粗略地反映给定描述的含义。本文的主要目的是基于生成对抗网络（GAN）提出五种不同方法的简要比较，以从文本生成图像。此外，每个模型架构都以不同的分辨率合成图像。此外，获得的最佳和最差分辨率分别为 64*64 和 256*256。然而，我们检查并比较了一些指标，这些指标引入了每个模型的准确性。此外，通过进行这项研究，我们通过比较这些不同方法的基本指标，找到了解决此问题的最佳模型。