摘要
arXiv:2408.04295v3 通知类型: 替换交叉
摘要:多智能体近端策略优化(MAPPO)最近在具有挑战性的多智能体强化学习任务中展示了最先进的性能。然而,MAPPO仍然难以解决信用分配问题,即在将信用分配给个体智能体的动作时,难度随着团队规模的增大而急剧增加。在本文中,我们提出了一种多智能体强化学习算法,该算法适应了信用分配领域的 recent 发展,以改进 MAPPO。我们的方法利用了部分奖励解耦(PRD),该方法使用一个学习到的注意机制来估计哪些特定智能体的队友对其学习更新是相关的。我们利用这个估计值动态地将大组智能体分解为更小、更易管理的子组。我们通过实验展示了我们的方法 PRD-MAPPO 能够将对智能体未来奖励期望无影响的队友从智能体中解耦,从而简化了信用分配。此外,我们还证明了 PRD-MAPPO 在多个多智能体任务中(包括 StarCraft II)的数据效率和渐近性能显著优于 MAPPO 和其他最先进的方法。最后,我们提出了一个适用于共享奖励设置的 PRD-MAPPO 版本,而在这种设置中 PRD 之前是不适用的,并通过实验展示了这种方法也进一步提高了 MAPPO 的性能。