LLM2D

摘要

联邦学习已成为协作机器学习中的一种很有前途的范式，同时保护了用户数据隐私。尽管具有潜力，但标准联邦学习缺乏对各种异构设备原型的支持，这些原型在模型和数据集大小方面差异很大——从小型的物联网设备到大工作站。现有知识蒸馏技术仅部分解决了这一局限性，这些技术通常无法有效地将知识转移到具有不同能力的各种设备原型之间。这种失败主要源于两个问题：来自能力更强的设备的知识被来自能力较弱的设备的知识稀释，以及在所有设备之间使用单个集成 logits 作为蒸馏目标，这忽略了它们各自的学习能力和每个设备的独特贡献。为了解决这些挑战，我们引入了 TAKFL，这是一种新颖的基于 KD 的框架，它将从每个设备原型的集成中进行的知识转移视为一项单独的任务，独立地蒸馏每个集成以保留其独特的贡献并避免稀释。TAKFL 还结合了一种基于 KD 的自正则化技术，以缓解与噪声和无监督集成蒸馏过程相关的问题。为了整合单独蒸馏的知识，我们引入了自适应任务算术知识整合过程，允许每个学生模型定制知识整合以获得最佳性能。此外，我们还给出了理论结果，证明了任务算术在将知识转移到具有不同能力的异构设备之间的有效性。我们方法在 CV 和 NLP 任务中的全面评估表明，TAKFL 在各种数据集和设置中取得了 SOTA 结果，显著优于现有的基于 KD 的方法。代码已发布在 https://github.com/MMorafah/TAKFL。