LLM2D
基于概率关系模型的隐私保护关系数据合成方法
Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models
作者: Malte Luttermann, Ralf M\"oller, Mattis Hartwig
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.04194v2

摘要

概率关系模型提供了一种成熟的形式化方法,将一阶逻辑和概率模型结合起来,从而允许在关系域中表示对象之间的关系。与此同时,人工智能领域需要越来越多的关系训练数据来完成各种机器学习任务。然而,由于隐私问题、数据保护法规、高昂的成本等等,收集真实世界数据往往具有挑战性。为了减轻这些挑战,合成数据的生成是一种很有前景的方法。在本文中,我们解决了通过概率关系模型生成合成关系数据的难题。特别是,我们提出了一条完整的流水线,从关系数据库到概率关系模型,该模型可以用来从其底层概率分布中采样新的合成关系数据点。作为我们提出的流水线的一部分,我们引入了一种学习算法,从给定的关系数据库中构建概率关系模型。