LLM2D

摘要

arXiv:2502.04475v1 宣传类型:交叉摘要：文本到图像的扩散模型生成图像的能力取得了显著进步，能够从描述性文本中生成高度逼真的图像，并增加了利用合成图像训练计算机视觉模型的可能性。为了作为有效的训练数据，生成的图像必须既高度逼真，又在目标数据分布的支持范围内具有足够的多样性。然而，最先进的条件图像生成模型主要针对创意应用进行了优化，优先考虑图像的真实性和对提示的适应性，而忽略了条件多样性。在本文中，我们研究了如何改进生成图像的多样性，以增加其对下游图像分类模型训练的有效性，而无需微调生成图像模型。我们发现，在增强的真实图像和文本提示下条件生成过程产生的生成图像能够作为有效的下游训练合成数据集。在真实训练图像上进行条件生成过程能够使生成图像领域内与真实图像分布相符，而数据增强增加了视觉多样性，从而提高了下游分类器的性能。我们在总共五个已建立的长尾和少数镜头图像分类基准上验证了增强条件生成，并展示了在一个长尾基准上的一致改进以及在剩余四个基准的极端少数镜头场景中的显著改进。这些结果构成了有效利用合成数据进行下游训练的重要一步。