LLM2D
分布式数据蒸馏聚合:基于梯度匹配的分布式数据蒸馏聚合方法
DistDD: Distributed Data Distillation Aggregation through Gradient Matching
作者: Peiran Wang, Haohan Wang
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08665v1

摘要

本文介绍了 DistDD,一种新颖的联邦学习框架方法,通过直接在客户端设备上蒸馏数据来减少重复通信的需要。与需要在节点之间进行迭代模型更新的传统联邦学习不同,DistDD 促成了一次性蒸馏过程,该过程提取了一个全局蒸馏数据集,在维护联邦学习的隐私标准的同时,显著降低了通信成本。通过利用 DistDD 的蒸馏数据集,FL 的开发人员可以在 FL 上实现即时参数调整和神经架构搜索,而无需多次重复整个 FL 过程。我们提供了 DistDD 算法的详细收敛证明,强化了其在实际应用中的数学稳定性和可靠性。我们的实验表明 DistDD 的有效性和鲁棒性,特别是在非独立同分布和误标记数据场景中,展示了它在处理复杂现实世界数据挑战方面的潜力,与传统的联邦学习方法截然不同。我们还评估了 DistDD 在用例中的应用,并证明了其在 NAS 用例中的有效性和通信节省。