LLM2D
重新思考合成数据的定义:以隐私为导向的方法
Rethinking Synthetic Data definitions: A privacy driven approach
作者: Vibeke Binz Vallevik, Serena Elizabeth Marshall, Aleksandar Babic, Jan Franz Nygaard
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2503.03506v2

摘要

arXiv:2503.03506v2 宣告类型: 交叉替换 摘要:合成数据正逐渐成为解决AI发展中不断增加的数据需求的一种经济有效的解决方案,它可以源自现有的知识或从现实世界事件中捕捉到的衍生数据生成。合成数据生成的源头和技术对其残余隐私风险产生了显著影响,进而影响了其共享的机会。传统的合成数据类型分类不再适用于新的生成技术,需要更好地将分类与实际需求对接。我们提出了一个新的合成数据类型分类方式,以更好地支持隐私评估,助力监管政策制定。我们的新分类方式为新的发展如深度生成方法提供了灵活性,并为未来的应用提供了一个更为实用的框架。