摘要
arXiv:2505.04223v1 宣布类型: cross
摘要: 联邦学习 (FL) 允许分布式客户端在保持数据本地性的前提下协作进行模型训练。虽然 FedAvg 为全局模型平均开创了同步轮次,但速度较慢的设备可能会延迟集体进度。异步 FL(例如 FedAsync)通过不断集成客户端更新来解决延迟问题,但简单的实现方式可能会因非IID数据和过时的贡献而导致客户端漂移。一些基于区块链的 FL 方法(例如 BRAIN)采用稳健的权重或评分来抵御恶意或不对齐的提议。然而,在严重数据异质性和高过时性的情况下,性能下降仍然可能发生,并且由于其去汇总架构,同步开销已成为一个新问题。
我们提出了一种新的异步 FL 方法 Fast-and-Reliable AI Network (FRAIN),通过结合两个关键想法来缓解这些限制。首先,我们的 FastSync 策略消除了重放过去模型版本的需要,使新加入者和频繁参与的人员能够高效地近似全局模型。其次,我们在合并参数时采用球面线性插值 (SLERP),保持模型的方向,从而减轻来自发散本地训练的破坏性干涉。
实验结果表明,使用 CNN 图像分类模型和基于 Transformer 的语言模型,FRAIN 在不稳定环境中比 FedAvg、FedAsync 和 BRAIN 实现了更稳定和更可靠的收敛,尤其是在非IID数据分布、网络延迟需要频繁重新同步以及存在恶意节点的情况下。