摘要
arXiv:2504.17058v3 宣布类型: replace-cross
摘要:在机器学习研究中,生成高质量的合成数据面临着重大挑战,尤其是在统计保真度和不确定性量化方面。现有的生成模型能够产生令人信服的合成样本,但在其与底层数据分布的关系上缺乏严格的统计保证,限制了它们在需要稳健误差边界的关键领域的应用。我们通过提出一种新框架来弥补这一基本限制,该框架将一致预测方法整合到生成对抗网络(GAN)中。通过整合多种一致预测范式,包括归纳一致预测(ICP)、Mondrian一致预测、交叉一致预测和VENN-ABERS预测器,我们建立了生成样本中无分布的不确定性量化。这种方法称为一致化GAN(cGAN),既展示了增强的校准特性,又保持了传统GAN的生成能力,生成具有可证明统计保证的合成数据。我们提供了严格的数学证明,确立了有限样本有效性保证和渐近效率特性,从而能够在包括医疗保健、金融和自主系统在内的高风险领域可靠地应用合成数据。