LLM2D

摘要

arXiv:2504.04582v2 通知类型: 交叉替换摘要：生成性扩散模型已成为合成生成训练数据的强大工具，为解决数据稀缺问题并减少下游监督深度学习应用中的标注成本提供了潜在解决方案。然而，有效利用基于文本条件的图像生成来构建分类器训练集需要解决几个关键问题：构造信息性的文本提示、适应生成模型以特定领域为目标，并确保其性能的可靠性。本文提出了基于文本条件的知识回收(TCKR)流水线以应对这些挑战。TCKR结合了动态图像描述、参数高效的扩散模型微调和生成性知识蒸馏技术来创建适用于图像分类的定制合成数据集。该流水线在十种不同的图像分类基准测试上进行了严格的评估。结果表明，仅使用TCKR生成的数据训练的模型在分类准确性上与使用真实图像训练的模型相当（在某些情况下甚至优于），并且展现出显著提升的隐私特性：会员推理攻击的易感性显著降低，与使用真实训练数据相比，平均降低5.49个点的会员推理AUC值，表明在性能-隐私权衡中的显著改进。这些发现表明，高质量的合成数据可以有效替代真实数据用于训练分类器，既能获得强大的性能，同时还能通过提供重要的新兴属性来增强隐私保护。附带的开源存储库中提供了代码和训练模型。