摘要
arXiv:2503.03506v3 通知类型: replace-cross
摘要:合成数据正在成为一种成本有效的解决方案,以应对AI开发日益增长的数据需求,这些数据要么源自现有知识,要么源自真实数据。传统的将合成数据类型划分为混合、部分或完全合成数据集的方法已失去其价值,并不能反映生成合成数据方法的不断增多。生成方法及其来源共同塑造合成数据的特点,进而决定了其实际应用。我们提出了一种替代的分组合成数据类型的方案,更加符合隐私视角,以便为合成数据的生成和处理提供更有效的监管指导。这种分类方法提供了对新进展如深度生成方法的灵活性,并为未来应用提供了更实用的框架。