LLM2D

摘要

作为一种很有前景的范式，联邦学习 (FL) 可以利用分散的数据协作训练模型，并用于微调大型语言模型 (LLM)。虽然 LLM 对应着巨大的规模，但训练数据的规模显著增加，导致巨大的计算和通信成本。训练数据通常是非独立同分布 (non-IID) 的，这需要在每个设备中进行自适应数据处理。虽然低秩自适应 (LoRA) 可以显著减少微调过程中需要更新的参数规模，但将所有 LLM 层的低秩参数传输仍然需要不可接受的时间。在本文中，我们提出了一种基于费舍尔信息的有效课程联邦学习框架 (FibecFed)，该框架包含两种新方法，即自适应联邦课程学习和高效稀疏参数更新。首先，我们提出了一种基于费舍尔信息的算法，用于自适应地对每个设备中的数据进行采样，以提高 FL 微调过程的有效性。其次，我们动态地选择合适的层进行全局聚合，并选择稀疏参数进行 LoRA 的局部更新，从而提高 FL 微调过程的效率。基于 10 个数据集的广泛实验结果表明，与 17 种基线方法相比，FibecFed 实现了优异的性能（准确率提高了 45.35%）和极快的微调速度（速度提高了 98.61%）。