LLM2D

摘要

我们研究了联邦离线强化学习（RL）的问题，在这种情况下，分布式学习代理必须仅使用根据不同的未知行为策略生成的少量预收集数据集来协同学习高质量的控制策略。简单地将标准的离线 RL 方法与标准的联邦学习方法结合起来解决这个问题会导致性能不佳的策略。为了应对这种情况，我们开发了联邦集成引导离线强化学习算法（FEDORA），该算法使用集成学习方法提取了客户端的集体智慧。我们开发了 FEDORA 代码库，以便在联邦学习平台上利用分布式计算资源。我们证明了 FEDORA 在各种复杂的连续控制环境和真实数据集上显著优于其他方法，包括在合并数据池上的离线 RL。最后，我们在移动机器人上展示了 FEDORA 在现实世界中的性能。我们在 \url{https://github.com/DesikRengarajan/FEDORA} 提供了我们的代码和实验视频。