摘要
arXiv:2409.13882v1 公告类型: 交叉 摘要: 生成合成表格数据在机器学习中至关重要,尤其是在真实数据有限或敏感的情况下。传统的生成模型由于表格数据的独特特性,如混合数据类型和分布多样性,常常面临挑战,并且需要复杂的预处理或大型预训练模型。本文介绍了一种新颖的无损二进制转换方法,将任何表格数据转换为固定大小的二进制表示,并引入了一种名为二进制扩散的新生成模型,专门设计用于二进制数据。二进制扩散利用XOR操作的简单性进行噪声添加和去除,并采用二进制交叉熵损失进行训练。我们的方法消除了对广泛预处理、复杂噪声参数调整和大型数据集预训练的需求。我们在多个流行的表格基准数据集上评估了我们的模型,结果表明,二进制扩散在Travel、Adult Income和Diabetes数据集上优于现有的最先进模型,同时模型尺寸显著更小。