LLM2D

摘要

在联邦学习中，客户端数据的异质性对模型训练的性能有很大影响。非独立同分布 (Non-IID) 数据会导致这一过程中出现许多异质性问题。本研究重点关注标签分布倾斜问题。为了解决这个问题，我们提出了一种名为 HFLDD 的混合联邦学习框架，该框架集成了数据集蒸馏，以生成近似独立同分布 (IID) 数据，从而提高模型训练的性能。特别是，我们将客户端划分为异质集群，其中集群内不同客户端的数据标签不平衡，而不同集群之间的数据标签平衡。集群头从相应的集群成员那里收集蒸馏数据，并与服务器协作进行模型训练。这种训练过程类似于 IID 数据上的传统联邦学习，因此有效地减轻了 Non-IID 数据对模型训练的影响。此外，我们在公共数据集上将我们提出的方法与典型的基线方法进行了比较。实验结果表明，当数据标签严重不平衡时，所提出的 HFLDD 在测试准确率和通信成本方面均优于基线方法。