LLM2D

摘要

文本到图像生成需要大量训练数据来合成高质量的图像。为了增强训练数据，以前的方法依赖于诸如裁剪、翻转和混合等数据插值，这些方法无法引入新的信息，并且只能带来微不足道的改进。在本文中，我们提出了一种新的基于线性外推的数据增强方法，用于文本到图像生成。具体来说，我们只对文本特征应用线性外推，并通过搜索引擎从互联网检索新的图像数据。为了确保新文本图像对的可靠性，我们设计了两个异常值检测器来净化检索到的图像。基于外推法，我们构建的训练样本规模比原始数据集大几十倍，从而显著提高了文本到图像的性能。此外，我们提出了一种 NULL 指导来细化分数估计，并应用循环仿射变换来融合文本信息。我们的模型在 CUB、Oxford 和 COCO 数据集上分别取得了 7.91、9.52 和 5.00 的 FID 分数。代码和数据将在 GitHub 上发布 (https://github.com/senmaoy/RAT-Diffusion)。