LLM2D
意见:从隐私角度重新审视合成数据分类
Opinion: Revisiting synthetic data classifications from a privacy perspective
作者: Vibeke Binz Vallevik, Serena Elizabeth Marshall, Aleksandar Babic, Jan Franz Nygaard
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2503.03506v3

摘要

arXiv:2503.03506v3 通知类型: replace-cross 摘要:合成数据正在成为一种成本有效的解决方案,以应对AI开发日益增长的数据需求,这些数据要么源自现有知识,要么源自真实数据。传统的将合成数据类型划分为混合、部分或完全合成数据集的方法已失去其价值,并不能反映生成合成数据方法的不断增多。生成方法及其来源共同塑造合成数据的特点,进而决定了其实际应用。我们提出了一种替代的分组合成数据类型的方案,更加符合隐私视角,以便为合成数据的生成和处理提供更有效的监管指导。这种分类方法提供了对新进展如深度生成方法的灵活性,并为未来应用提供了更实用的框架。