LLM2D

摘要

arXiv:2505.10551v1 Announce Type: cross 摘要：随着photorealistic扩散模型的发展，部分或完全基于合成数据训练的模型逐渐取得了更好的成果。然而，扩散模型仍然会生成现实中不存在的图像，例如浮在空中的狗或者纹理不真实的图像。我们将可行性定义为合成图像中的属性在现实世界中是否真实存在；包含违反这一标准属性的合成图像被视为不可行的图像。直观上，不可行的图像通常被认为是离分布的；因此，使用这类图像进行训练可能阻碍模型对现实世界数据的泛化能力，所以尽可能排除这些图像的训练集是合理的。但是，可行性真的很关键吗？在这篇论文中，我们探究在基于CLIP的分类器生成合成训练数据时是否需要强制执行可行性，重点研究了三个目标属性：背景、颜色和纹理。我们引入了VariReal流水线，该流水线根据大型语言模型生成的文本提示对给定的源图像进行最小化编辑，以包含可实现或不可实现的属性。我们的实验表明，可行性对LoRA微调后的CLIP性能的影响较小，在三个细粒度数据集中，最高1准确率差异约为0.3%。此外，属性对可实现/不可实现图像是否能够对抗性地影响分类性能也很重要。最后，训练数据集中混用可实现和不可实现的图像对性能的影响与使用完全可实现或不可实现的训练数据集相比并无显著差异。