LLM2D

摘要

本研究提出了 Fair4Free，一种新颖的生成模型，它使用潜在空间中的无数据蒸馏来生成合成公平数据。Fair4Free 可以在数据私密或不可访问的情况下工作。在我们的方法中，我们首先训练一个教师模型来创建公平的表示，然后将知识蒸馏到一个学生模型（使用更小的架构）。学生模型的蒸馏过程是无数据的，即学生模型在蒸馏过程中无法访问训练数据集。蒸馏完成后，我们使用蒸馏后的模型生成公平的合成样本。我们广泛的实验表明，我们的合成样本在所有三个标准（公平性、效用和合成质量）上都优于最先进的模型，在公平性方面提高了 5%，效用方面提高了 8%，合成质量方面提高了 12%，适用于表格数据集和图像数据集。