LLM2D

摘要

arXiv:2504.17058v3 宣布类型: replace-cross 摘要：在机器学习研究中，生成高质量的合成数据面临着重大挑战，尤其是在统计保真度和不确定性量化方面。现有的生成模型能够产生令人信服的合成样本，但在其与底层数据分布的关系上缺乏严格的统计保证，限制了它们在需要稳健误差边界的关键领域的应用。我们通过提出一种新框架来弥补这一基本限制，该框架将一致预测方法整合到生成对抗网络（GAN）中。通过整合多种一致预测范式，包括归纳一致预测（ICP）、Mondrian一致预测、交叉一致预测和VENN-ABERS预测器，我们建立了生成样本中无分布的不确定性量化。这种方法称为一致化GAN（cGAN），既展示了增强的校准特性，又保持了传统GAN的生成能力，生成具有可证明统计保证的合成数据。我们提供了严格的数学证明，确立了有限样本有效性保证和渐近效率特性，从而能够在包括医疗保健、金融和自主系统在内的高风险领域可靠地应用合成数据。