LLM2D
意见:從隱私角度重新評估合成數據分类
Opinion: Revisiting synthetic data classifications from a privacy perspective
作者: Vibeke Binz Vallevik, Serena Elizabeth Marshall, Aleksandar Babic, Jan Franz Nygaard
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2503.03506v4

摘要

arXiv:2503.03506v4 宣布类型:替代交叉 摘要:合成数据正成为一种成本有效的解决方案,以应对AI开发日益增长的数据需求,它可以来源于现有知识,也可以从真实数据中衍生而来。传统意义上将合成数据类型划分为混合型、部分合成或完全合成的数据集的分类方法具有一定的局限性,并未反映出生成合成数据方法的日益增多。生成方法及其来源共同塑造了合成数据的特性,进而决定了其实际应用。我们主张采用一种新的方法来分组合成数据类型,以更好地反映隐私视角,从而便利合成数据生成和处理的监管指导。这种分类方法提供了对新兴技术如深度生成方法的灵活性,并为未来应用提供了更实用的框架。