摘要
属性之间的依赖关系是表格数据中常见的现象。然而,现有的表格数据生成算法在生成合成数据时是否保留了这些依赖关系,还有待探索。除了现有的函数依赖关系的概念,本文还引入了属性之间逻辑依赖关系的概念。此外,我们提供了一种度量方法来量化表格数据中属性之间的逻辑依赖关系。利用这种度量方法,我们比较了几种最先进的合成数据生成算法,并测试了它们在几个公开可用的数据集上保留逻辑和函数依赖关系的能力。我们证明了目前可用的合成表格数据生成算法在生成合成数据集时并没有完全保留函数依赖关系。此外,我们还表明,一些表格合成数据生成模型可以保留属性之间的逻辑依赖关系。我们对最先进技术的回顾和比较揭示了开发特定于任务的合成表格数据生成模型的研究需求和机遇。