摘要
arXiv:2503.03506v4 宣布类型:替代交叉
摘要:合成数据正成为一种成本有效的解决方案,以应对AI开发日益增长的数据需求,它可以来源于现有知识,也可以从真实数据中衍生而来。传统意义上将合成数据类型划分为混合型、部分合成或完全合成的数据集的分类方法具有一定的局限性,并未反映出生成合成数据方法的日益增多。生成方法及其来源共同塑造了合成数据的特性,进而决定了其实际应用。我们主张采用一种新的方法来分组合成数据类型,以更好地反映隐私视角,从而便利合成数据生成和处理的监管指导。这种分类方法提供了对新兴技术如深度生成方法的灵活性,并为未来应用提供了更实用的框架。