LLM2D

摘要

arXiv:2504.04582v1 类型：交叉摘要：生成性扩散模型已成为合成生成训练数据的强大工具，为解决数据稀缺性和降低下游监督深度学习应用的标注成本提供了潜在解决方案。然而，有效利用文本条件化图像生成来构建分类器训练集需要解决关键问题：构造具有信息性的文本提示、适应生成模型到特定领域以及确保稳健性能。本文提出了文本条件化知识回收（TCKR）管道来解决这些问题。TCKR 结合动态图像描述、参数高效扩散模型微调和生成性知识蒸馏技术，创建适合图像分类的合成数据集。该管道在十个不同的图像分类基准上进行了严格的评估。结果表明，仅使用 TCKR 生成的数据训练的模型在分类准确率上与（并在某些情况下超过）使用真实图像训练的模型相当。此外，评估证明，这些使用合成数据训练的模型在隐私特性方面表现出显著增强：它们对成员推断攻击的易受攻击性显著降低，使用合成训练数据时，平均 AUC 降低了 5.49 个点，展示了性能-隐私权衡改进的巨大提升。这些发现表明，高保真度的合成数据可以有效地替代真实数据进行分类器训练，既能提供强大的性能，同时还能通过一种有价值的附加特性提供更好的隐私保护。相关代码和训练模型可在附带的开源库中获得。