摘要
arXiv:2502.00870v1 宣言类型: cross
摘要:联邦强化学习(FedRL)在保持隐私的同时提高了样本效率,然而,现有的大部分研究假设各代理是同质的,这限制了其在实际应用场景中的适用性。本文探讨了在具有异质代理的黑盒设置下的FedRL,每个代理使用不同的策略网络和训练配置,并且不会披露其内部细节。知识蒸馏(KD)是促进异质模型之间知识共享的一种有前途的方法,但在应用于FedRL时,它面临着公共数据集稀缺和知识表示的局限性等挑战。为了解决这些挑战,我们提出了联邦异质策略蒸馏(FedHPD),通过使用行为概率分布作为知识共享的媒介来解决异质FedRL的问题。我们提供了在标准假设下的FedHPD收敛性的理论分析。广泛的实验证明,FedHPD在各种强化学习基准任务中显示出显著的改进,进一步验证了我们的理论发现。此外,额外的实验表明,FedHPD可以在无需精心选择公共数据集的情况下有效运行。