LLM2D

摘要

多智能体强化学习 (MARL) 的出现正在显著改变自动驾驶汽车网络等各个领域。然而，现实世界中的多智能体系统通常包含多个角色，并且这些系统的规模会动态波动。因此，为了实现零样本可扩展的协作，策略必须能够根据规模灵活更新，这对当前的 MARL 框架来说仍然是一个挑战。为了解决这个问题，我们提出了一种名为可扩展异构近端策略优化 (SHPPO) 的新型 MARL 框架，将异构性集成到基于参数共享 PPO 的 MARL 网络中。我们首先利用一个潜在网络来自适应地学习每个智能体的策略模式。其次，我们在决策网络中引入了一个异构层，其参数由学习到的潜在变量专门生成。我们的方法是可扩展的，因为所有参数都是共享的，除了异构层，并且获得了个体间和时间异构性，使 SHPPO 能够有效地适应不同的规模。SHPPO 在星际争霸多智能体挑战 (SMAC) 和谷歌研究足球 (GRF) 等经典 MARL 环境中表现出优越的性能，展示了增强的零样本可扩展性，并通过可视化提供了对学习到的潜在变量对团队性能的影响的见解。