LLM2D

摘要

arXiv:2502.00870v1 宣言类型: cross 摘要：联邦强化学习（FedRL）在保持隐私的同时提高了样本效率，然而，现有的大部分研究假设各代理是同质的，这限制了其在实际应用场景中的适用性。本文探讨了在具有异质代理的黑盒设置下的FedRL，每个代理使用不同的策略网络和训练配置，并且不会披露其内部细节。知识蒸馏（KD）是促进异质模型之间知识共享的一种有前途的方法，但在应用于FedRL时，它面临着公共数据集稀缺和知识表示的局限性等挑战。为了解决这些挑战，我们提出了联邦异质策略蒸馏（FedHPD），通过使用行为概率分布作为知识共享的媒介来解决异质FedRL的问题。我们提供了在标准假设下的FedHPD收敛性的理论分析。广泛的实验证明，FedHPD在各种强化学习基准任务中显示出显著的改进，进一步验证了我们的理论发现。此外，额外的实验表明，FedHPD可以在无需精心选择公共数据集的情况下有效运行。