LLM2D

摘要

arXiv:2502.13728v1 宣告类型: cross 摘要: 数据集蒸馏（DD）是一种将大型数据集缩减为紧凑且具有代表性的合成数据集的技术，从而加速机器学习训练。然而，传统的方法在中心化模式下运行，这带来了显著的隐私威胁并减少了其适用性。为减轻这些风险，我们提出了一种安全联邦数据蒸馏框架（SFDD），以去中心化蒸馏过程的同时保持隐私。与现有的专注于使用蒸馏知识训练全局模型的联邦蒸馏技术不同，我们的方法旨在生成一个不泄露本地贡献的蒸馏数据集。我们利用基于梯度匹配的蒸馏方法，将其调整为一种分布式设置，其中客户端在不共享原始数据的情况下参与蒸馏过程。中央聚合器通过整合客户端的更新逐步完善合成数据集，同时确保数据机密性。为了使我们的方法能够抵御服务器发起的推理攻击，攻击者可能通过利用梯度更新来重构私人数据，我们创造了一种优化的局部差分隐私方法，称为LDPO-RLD（基于随机线性分散的标签差分隐私混淆）。此外，我们评估了该框架对执行后门攻击的恶意客户端的抵抗能力，并在假设足够多的客户端参与的情况下证明了其鲁棒性。我们的实验结果表明，SFDD的有效性，并且提出的防御方法确实缓解了所识别的漏洞，同时对蒸馏数据集的性能影响 minimal。通过解决数据集蒸馏中的隐私和联邦之间的交互，本工作促进了隐私保护机器学习的发展，使我们的SFDD框架成为敏感数据共享应用的有效解决方案。