LLM2D
小数据集文本到图像生成的数据外推
Data Extrapolation for Text-to-image Generation on Small Datasets
作者: Senmao Ye, Fei Liu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01638v1

摘要

文本到图像生成需要大量训练数据来合成高质量的图像。为了增强训练数据,以前的方法依赖于诸如裁剪、翻转和混合等数据插值,这些方法无法引入新的信息,并且只能带来微不足道的改进。在本文中,我们提出了一种新的基于线性外推的数据增强方法,用于文本到图像生成。具体来说,我们只对文本特征应用线性外推,并通过搜索引擎从互联网检索新的图像数据。为了确保新文本图像对的可靠性,我们设计了两个异常值检测器来净化检索到的图像。基于外推法,我们构建的训练样本规模比原始数据集大几十倍,从而显著提高了文本到图像的性能。此外,我们提出了一种 NULL 指导来细化分数估计,并应用循环仿射变换来融合文本信息。我们的模型在 CUB、Oxford 和 COCO 数据集上分别取得了 7.91、9.52 和 5.00 的 FID 分数。代码和数据将在 GitHub 上发布 (https://github.com/senmaoy/RAT-Diffusion)。