LLM2D
概率因果图作为分类数据合成器:它们比高斯 copula 和条件表格 GAN 更好吗?
Probabilistic causal graphs as categorical data synthesizers: Do they do better than Gaussian Copulas and Conditional Tabular GANs?
作者: Olha Shaposhnyk, Noor Abid, Mouri Zakir, Svetlana Yanushkevich
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11547v1

摘要

arXiv:2504.11547v1 新发布 摘要:本研究探讨了使用因果图模型生成高质量合成分类数据,例如调查数据。生成合成数据不仅旨在为模型的训练提供多种数据,还旨在在捕捉数据关系的同时保护隐私。研究采用了结构方程模型(SEM)和贝叶斯网络(BN)。我们使用了基于为残疾人提供服务访问性的调查分类数据。我们分别创建了SEM模型和BN模型来表示因果关系并捕获变量之间的联合分布。在我们案例研究中,这些变量包括人口统计学、残疾类型、无障碍障碍类型以及遇到这些障碍的频率。 该研究将基于SEM的BN方法与替代方法进行了比较,包括概率高斯copula技术和生成模型,如条件表生成对抗网络(CTGAN)。提出的方法在统计指标上优于其他方法,包括卡方检验、Kullback-Leibler散度和总变异距离(TVD)。特别是,BN模型表现尤为出色,获得了最高的TVD,表明与原始数据的对齐。高斯copula排名第二,而CTGAN表现出适中的性能。这些分析证实了基于SEM的BN方法能够生成同时保持统计和关系有效性的合成数据,同时保持保密性。这种方法特别适用于敏感数据的研究,如无障碍和残疾研究。