LLM2D
POWQMIX:基于潜在最优联合动作识别加权值分解的协作多智能体强化学习
POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning
作者: Chang Huang, Shatong Zhu, Junqiao Zhao, Hongtu Zhou, Chen Ye, Tiantian Feng, Changjun Jiang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2405.08036v4

摘要

值函数分解方法常用于合作多智能体强化学习中,其中QMIX受到了广泛关注。许多基于QMIX的方法引入了联合动作值和个体动作值之间的单调性约束,以实现去中心化执行。然而,这种约束限制了值分解的表示能力,限制了它可以表示的联合动作值,并阻碍了最优策略的学习。为了解决这一挑战,我们提出了潜在最优联合动作加权QMIX (POWQMIX)算法,该算法识别潜在的最优联合动作,并在训练过程中为这些联合动作的对应损失分配更高的权重。我们从理论上证明,这种加权训练方法可以保证恢复最优策略。在矩阵博弈、难度增强的捕食者-猎物和星际争霸II多智能体挑战环境中的实验表明,我们的算法优于最先进的基于值的强化学习多智能体方法。