LLM2D

摘要

arXiv:2504.11216v1 宣布类型: cross 摘要：联邦学习（FL）使在分布式数据上进行机器学习模型的去中心化训练成为可能，同时保护隐私。然而，在实际的联邦学习设置中，客户端数据往往是非同分布且不均衡的，导致统计数据异质性，这影响了服务端模型在客户端之间的泛化能力，减缓了收敛速度并降低了性能。在本文中，我们通过首先提出一种使用6个指标来表征全局和客户端属性偏差、类别偏差以及虚假相关性的统计数据异质性特征，来解决这一挑战。接下来，我们创建并分享了7个计算机视觉数据集，用于联邦学习中的二分类和多分类图像分类任务，这些数据集涵盖了广泛的统计数据异质性，从而模拟真实世界的情况。最后，我们提出了FedDiverse，这是一种新颖的联邦学习客户端选择算法，旨在通过促进具有互补数据分布的客户端之间的协作来管理和利用客户端之间的数据异质性。在七个提出的联邦学习数据集上的实验表明，FedDiverse 在提高各种联邦学习方法的性能和鲁棒性方面非常有效，同时具有较低的通信和计算开销。