LLM2D

摘要

arXiv:2503.18816v2 通告类型: 替换-交叉摘要: 在本文中，我们提出了一种新颖的合作多智能体强化学习方法，称为基于局部性的因子分解多智能体演员-批评家（Locality Based Factorized Multi-Agent Actor-Critic，Loc-FACMAC）。现有的最先进的算法，例如FACMAC，依赖于全局奖励信息，这可能无法准确反映分散系统中单个智能体行为的质量。我们通过将局部性概念集成到批评家学习中，在训练过程中将高度相关的智能体形成分区，同一分区内的智能体相互影响更大，从而提高了策略评估的准确性。此外，我们构建了一个依赖图来捕捉智能体之间的关系，有助于分区过程。这种方法缓解了维数灾难问题，并防止智能体使用无关信息。我们的方法通过关注局部奖励并结合分区学习来提高训练效率和性能，从而改进了现有的算法。我们在三个环境中评估了Loc-FACMAC的性能：走廊、多滑杆和 bounded 合作导航。我们探索了分区大小对性能的影响，并将结果与基线多智能体强化学习（MARL）算法（如LOMAQ、FACMAC和QMIX）进行了比较。实验表明，如果局部性结构定义得当，Loc-FACMAC的性能可提高至基线算法的108%，这表明在演员-批评家框架中利用局部性结构可以提高MARL的性能。