LLM2D

摘要

arXiv:2504.17058v2 传达类型: 替换-交叉摘要：在机器学习研究中，生成高质量的合成数据面临着重大挑战，特别是在统计保真度和不确定性量化方面。现有的生成模型可以生成令人信服的合成样本，但在其与底层数据分布的关系上缺乏严格的统计保证，限制了其在需要严格错误边界的关键领域的应用。为此，我们通过提出一种新框架解决了这一基本限制，该框架将一致预测方法整合到生成对抗网络（GANs）中。通过整合多种一致预测范式，包括归纳一致预测（ICP）、Scheffé 一致预测、交叉一致预测和文恩-阿伯斯预测器，我们为生成的样本建立了无分布不确定性量化。这种方法被称为一致化 GAN（cGAN），它在保持传统 GAN 的生成能力的同时，展示了增强的校准特性，生成带有可证明统计保证的合成数据。我们提供了严格的数学证明，建立了有限样本有效性保证和渐近效率属性，这使得合成数据在高风险领域（包括医疗保健、金融和自主系统等）中的可靠应用成为可能。