LLM2D

摘要

arXiv:2504.11547v1 新发布摘要：本研究探讨了使用因果图模型生成高质量合成分类数据，例如调查数据。生成合成数据不仅旨在为模型的训练提供多种数据，还旨在在捕捉数据关系的同时保护隐私。研究采用了结构方程模型（SEM）和贝叶斯网络（BN）。我们使用了基于为残疾人提供服务访问性的调查分类数据。我们分别创建了SEM模型和BN模型来表示因果关系并捕获变量之间的联合分布。在我们案例研究中，这些变量包括人口统计学、残疾类型、无障碍障碍类型以及遇到这些障碍的频率。该研究将基于SEM的BN方法与替代方法进行了比较，包括概率高斯copula技术和生成模型，如条件表生成对抗网络（CTGAN）。提出的方法在统计指标上优于其他方法，包括卡方检验、Kullback-Leibler散度和总变异距离（TVD）。特别是，BN模型表现尤为出色，获得了最高的TVD，表明与原始数据的对齐。高斯copula排名第二，而CTGAN表现出适中的性能。这些分析证实了基于SEM的BN方法能够生成同时保持统计和关系有效性的合成数据，同时保持保密性。这种方法特别适用于敏感数据的研究，如无障碍和残疾研究。