摘要
arXiv:2503.18816v1 宣传类型: cross
摘要: 在这项工作中,我们提出了一种基于局部性的因分解出的多智能体 actor-critic (Loc-FACMAC) 新颖的合作多智能体强化学习方法。现有的前沿算法,如 FACMAC,依赖于全局奖励信息,这可能无法准确反映分布式系统中单个机器人动作的质量。我们将在批判学习中集成局部性的概念,在训练过程中,密切相关的机器人将形成分区。同一分区内的机器人彼此的影响更大,从而提高了策略评估的精确度。此外,我们构建了一个依赖图来捕获机器人之间的关系,有利于分区过程的进行。这种方法减轻了维度灾,并防止机器人使用无关的信息。通过关注局部奖励并利用基于分区的学习来增强训练效率和性能,我们的方法改善了现有的算法。我们在三个环境中评估了 Loc-FACMAC 的性能:走廊、多_cartpole 和 有界协同导航。我们探讨了分区大小对性能的影响,并将结果与基线多智能体强化学习 (MARL) 算法,例如 LOMAQ、FACMAC 和 QMIX 进行比较。实验表明,如果局部性结构定义适当,Loc-FACMAC 的性能可以提高多达 108%,表明在演员-评论家框架中利用局部性结构可以提高 MARL 的性能。