LLM2D

摘要

arXiv:2505.04223v1 宣布类型: cross 摘要: 联邦学习 (FL) 允许分布式客户端在保持数据本地性的前提下协作进行模型训练。虽然 FedAvg 为全局模型平均开创了同步轮次，但速度较慢的设备可能会延迟集体进度。异步 FL（例如 FedAsync）通过不断集成客户端更新来解决延迟问题，但简单的实现方式可能会因非IID数据和过时的贡献而导致客户端漂移。一些基于区块链的 FL 方法（例如 BRAIN）采用稳健的权重或评分来抵御恶意或不对齐的提议。然而，在严重数据异质性和高过时性的情况下，性能下降仍然可能发生，并且由于其去汇总架构，同步开销已成为一个新问题。我们提出了一种新的异步 FL 方法 Fast-and-Reliable AI Network (FRAIN)，通过结合两个关键想法来缓解这些限制。首先，我们的 FastSync 策略消除了重放过去模型版本的需要，使新加入者和频繁参与的人员能够高效地近似全局模型。其次，我们在合并参数时采用球面线性插值 (SLERP)，保持模型的方向，从而减轻来自发散本地训练的破坏性干涉。实验结果表明，使用 CNN 图像分类模型和基于 Transformer 的语言模型，FRAIN 在不稳定环境中比 FedAvg、FedAsync 和 BRAIN 实现了更稳定和更可靠的收敛，尤其是在非IID数据分布、网络延迟需要频繁重新同步以及存在恶意节点的情况下。