摘要
值函数分解方法常用于合作多智能体强化学习中,其中QMIX受到了广泛关注。许多基于QMIX的方法引入了联合动作值和个体动作值之间的单调性约束,以实现去中心化执行。然而,这种约束限制了值分解的表示能力,限制了它可以表示的联合动作值,并阻碍了最优策略的学习。为了解决这一挑战,我们提出了潜在最优联合动作加权QMIX (POWQMIX)算法,该算法识别潜在的最优联合动作,并在训练过程中为这些联合动作的对应损失分配更高的权重。我们从理论上证明,这种加权训练方法可以保证恢复最优策略。在矩阵博弈、难度增强的捕食者-猎物和星际争霸II多智能体挑战环境中的实验表明,我们的算法优于最先进的基于值的强化学习多智能体方法。