摘要
arXiv:2502.13728v1 宣告类型: cross
摘要: 数据集蒸馏(DD)是一种将大型数据集缩减为紧凑且具有代表性的合成数据集的技术,从而加速机器学习训练。然而,传统的方法在中心化模式下运行,这带来了显著的隐私威胁并减少了其适用性。为减轻这些风险,我们提出了一种安全联邦数据蒸馏框架(SFDD),以去中心化蒸馏过程的同时保持隐私。与现有的专注于使用蒸馏知识训练全局模型的联邦蒸馏技术不同,我们的方法旨在生成一个不泄露本地贡献的蒸馏数据集。我们利用基于梯度匹配的蒸馏方法,将其调整为一种分布式设置,其中客户端在不共享原始数据的情况下参与蒸馏过程。中央聚合器通过整合客户端的更新逐步完善合成数据集,同时确保数据机密性。为了使我们的方法能够抵御服务器发起的推理攻击,攻击者可能通过利用梯度更新来重构私人数据,我们创造了一种优化的局部差分隐私方法,称为LDPO-RLD(基于随机线性分散的标签差分隐私混淆)。此外,我们评估了该框架对执行后门攻击的恶意客户端的抵抗能力,并在假设足够多的客户端参与的情况下证明了其鲁棒性。我们的实验结果表明,SFDD的有效性,并且提出的防御方法确实缓解了所识别的漏洞,同时对蒸馏数据集的性能影响 minimal。通过解决数据集蒸馏中的隐私和联邦之间的交互,本工作促进了隐私保护机器学习的发展,使我们的SFDD框架成为敏感数据共享应用的有效解决方案。