摘要
多智能体强化学习 (MARL) 的出现正在显著改变自动驾驶汽车网络等各个领域。然而,现实世界中的多智能体系统通常包含多个角色,并且这些系统的规模会动态波动。因此,为了实现零样本可扩展的协作,策略必须能够根据规模灵活更新,这对当前的 MARL 框架来说仍然是一个挑战。为了解决这个问题,我们提出了一种名为可扩展异构近端策略优化 (SHPPO) 的新型 MARL 框架,将异构性集成到基于参数共享 PPO 的 MARL 网络中。我们首先利用一个潜在网络来自适应地学习每个智能体的策略模式。其次,我们在决策网络中引入了一个异构层,其参数由学习到的潜在变量专门生成。我们的方法是可扩展的,因为所有参数都是共享的,除了异构层,并且获得了个体间和时间异构性,使 SHPPO 能够有效地适应不同的规模。SHPPO 在星际争霸多智能体挑战 (SMAC) 和谷歌研究足球 (GRF) 等经典 MARL 环境中表现出优越的性能,展示了增强的零样本可扩展性,并通过可视化提供了对学习到的潜在变量对团队性能的影响的见解。