LLM2D

摘要

arXiv:2505.09733v1 宣告类型: cross 摘要：联邦学习（FL）提供了一种在保持各个分散客户端数据集数据隐私的同时进行协作模型训练的有效解决方案。然而，数据质量问题，如嘈杂的标签、缺失的类别和不平衡的分布，极大地挑战了其有效性。本研究提出了一种系统地解决数据质量问题的联邦学习方法，包括噪声、类别不平衡和缺失标签。所提出的方法通过自适应噪声清理、协作条件GAN生成的合成数据和稳健的联邦模型训练，系统地增强了数据完整性。在基准数据集（MNIST和Fashion-MNIST）上的实验评估显示，在不同噪声和类别不平衡条件下，联邦模型性能得到了显著提高，特别是在宏观F1分数方面。此外，所提出的框架谨慎地平衡了计算可行性与显著的性能增益，确保在资源受限的边缘设备上具有实际可行性，同时严格维护数据隐私。我们的研究结果表明，该方法有效地缓解了常见的数据质量问题，提供了一种稳健、可扩展且符合隐私要求的解决方案，适用于各种实际世界的联邦学习场景。