LLM2D
Fair4Free:利用数据自由蒸馏生成高保真公平合成样本
Fair4Free: Generating High-fidelity Fair Synthetic Samples using Data Free Distillation
作者: Md Fahim Sikder, Daniel de Leng, Fredrik Heintz
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01423v1

摘要

本研究提出了 Fair4Free,一种新颖的生成模型,它使用潜在空间中的无数据蒸馏来生成合成公平数据。Fair4Free 可以在数据私密或不可访问的情况下工作。在我们的方法中,我们首先训练一个教师模型来创建公平的表示,然后将知识蒸馏到一个学生模型(使用更小的架构)。学生模型的蒸馏过程是无数据的,即学生模型在蒸馏过程中无法访问训练数据集。蒸馏完成后,我们使用蒸馏后的模型生成公平的合成样本。我们广泛的实验表明,我们的合成样本在所有三个标准(公平性、效用和合成质量)上都优于最先进的模型,在公平性方面提高了 5%,效用方面提高了 8%,合成质量方面提高了 12%,适用于表格数据集和图像数据集。