LLM2D
通过符合性对抗生成合成数据的统计保证
Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation
作者: Rahul Vishwakarma, Shrey Dharmendra Modi, Vishwanath Seshagiri
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.17058v2

摘要

arXiv:2504.17058v2 传达类型: 替换-交叉 摘要:在机器学习研究中,生成高质量的合成数据面临着重大挑战,特别是在统计保真度和不确定性量化方面。现有的生成模型可以生成令人信服的合成样本,但在其与底层数据分布的关系上缺乏严格的统计保证,限制了其在需要严格错误边界的关键领域的应用。为此,我们通过提出一种新框架解决了这一基本限制,该框架将一致预测方法整合到生成对抗网络(GANs)中。通过整合多种一致预测范式,包括归纳一致预测(ICP)、Scheffé 一致预测、交叉一致预测和文恩-阿伯斯预测器,我们为生成的样本建立了无分布不确定性量化。这种方法被称为一致化 GAN(cGAN),它在保持传统 GAN 的生成能力的同时,展示了增强的校准特性,生成带有可证明统计保证的合成数据。我们提供了严格的数学证明,建立了有限样本有效性保证和渐近效率属性,这使得合成数据在高风险领域(包括医疗保健、金融和自主系统等)中的可靠应用成为可能。