LLM2D

摘要

arXiv:2503.20138v1 宣告类型: cross 摘要：人工智能（AI）技术已经革新了众多领域，但其应用往往依赖于成本高昂且耗时的数据收集过程。联邦学习（FL）提供了一种有前景的替代方案，通过在分散的数据上训练AI模型，其中数据分散在各个客户端（分布式节点）上。然而，现有的FL方法由于异质数据分布和通信延迟等挑战，难以达到集中训练的性能，从而限制了其实现突破的潜力。我们观察到许多实际应用场景涉及混合数据模式，在这种模式中，服务器（中心节点）可以访问某些数据，而大量数据则分布在相关客户端上。为了解决这种模式下分散数据的利用问题、处理数据异质性问题，并促进服务器与客户端之间的异步通信，我们提出了一种双学习方法，利用服务器上的集中数据引导客户端模型更新的合并。我们的方法适用于服务器数据相对于分散客户端数据不在域内的场景，使其适用于广泛的应用场景。我们提供了理论分析，证明了我们的方法比现有方法具有更快的收敛速度。此外，各种场景下的实验结果表明，我们的方法显著优于现有技术，突显了其潜在价值，可以解锁大量分散数据的价值。