LLM2D

摘要

arXiv:2503.03506v4 宣布类型：替代交叉摘要：合成数据正成为一种成本有效的解决方案，以应对AI开发日益增长的数据需求，它可以来源于现有知识，也可以从真实数据中衍生而来。传统意义上将合成数据类型划分为混合型、部分合成或完全合成的数据集的分类方法具有一定的局限性，并未反映出生成合成数据方法的日益增多。生成方法及其来源共同塑造了合成数据的特性，进而决定了其实际应用。我们主张采用一种新的方法来分组合成数据类型，以更好地反映隐私视角，从而便利合成数据生成和处理的监管指导。这种分类方法提供了对新兴技术如深度生成方法的灵活性，并为未来应用提供了更实用的框架。