LLM2D

摘要

arXiv:2503.18816v1 宣传类型: cross 摘要: 在这项工作中，我们提出了一种基于局部性的因分解出的多智能体 actor-critic (Loc-FACMAC) 新颖的合作多智能体强化学习方法。现有的前沿算法，如 FACMAC，依赖于全局奖励信息，这可能无法准确反映分布式系统中单个机器人动作的质量。我们将在批判学习中集成局部性的概念，在训练过程中，密切相关的机器人将形成分区。同一分区内的机器人彼此的影响更大，从而提高了策略评估的精确度。此外，我们构建了一个依赖图来捕获机器人之间的关系，有利于分区过程的进行。这种方法减轻了维度灾，并防止机器人使用无关的信息。通过关注局部奖励并利用基于分区的学习来增强训练效率和性能，我们的方法改善了现有的算法。我们在三个环境中评估了 Loc-FACMAC 的性能：走廊、多_cartpole 和有界协同导航。我们探讨了分区大小对性能的影响，并将结果与基线多智能体强化学习 (MARL) 算法，例如 LOMAQ、FACMAC 和 QMIX 进行比较。实验表明，如果局部性结构定义适当，Loc-FACMAC 的性能可以提高多达 108%，表明在演员-评论家框架中利用局部性结构可以提高 MARL 的性能。