LLM2D
基于局部性分解多代理actor-critic算法学习多机器人协调
Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm
作者: Chak Lam Shek, Amrit Singh Bedi, Anjon Basak, Ellen Novoseller, Nick Waytowich, Priya Narayanan, Dinesh Manocha, Pratap Tokekar
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18816v1

摘要

arXiv:2503.18816v1 宣传类型: cross 摘要: 在这项工作中,我们提出了一种基于局部性的因分解出的多智能体 actor-critic (Loc-FACMAC) 新颖的合作多智能体强化学习方法。现有的前沿算法,如 FACMAC,依赖于全局奖励信息,这可能无法准确反映分布式系统中单个机器人动作的质量。我们将在批判学习中集成局部性的概念,在训练过程中,密切相关的机器人将形成分区。同一分区内的机器人彼此的影响更大,从而提高了策略评估的精确度。此外,我们构建了一个依赖图来捕获机器人之间的关系,有利于分区过程的进行。这种方法减轻了维度灾,并防止机器人使用无关的信息。通过关注局部奖励并利用基于分区的学习来增强训练效率和性能,我们的方法改善了现有的算法。我们在三个环境中评估了 Loc-FACMAC 的性能:走廊、多_cartpole 和 有界协同导航。我们探讨了分区大小对性能的影响,并将结果与基线多智能体强化学习 (MARL) 算法,例如 LOMAQ、FACMAC 和 QMIX 进行比较。实验表明,如果局部性结构定义适当,Loc-FACMAC 的性能可以提高多达 108%,表明在演员-评论家框架中利用局部性结构可以提高 MARL 的性能。