LLM2D

摘要

arXiv:2503.03506v3 通知类型: replace-cross 摘要：合成数据正在成为一种成本有效的解决方案，以应对AI开发日益增长的数据需求，这些数据要么源自现有知识，要么源自真实数据。传统的将合成数据类型划分为混合、部分或完全合成数据集的方法已失去其价值，并不能反映生成合成数据方法的不断增多。生成方法及其来源共同塑造合成数据的特点，进而决定了其实际应用。我们提出了一种替代的分组合成数据类型的方案，更加符合隐私视角，以便为合成数据的生成和处理提供更有效的监管指导。这种分类方法提供了对新进展如深度生成方法的灵活性，并为未来应用提供了更实用的框架。