LLM2D

摘要

值函数分解方法常用于合作多智能体强化学习中，其中QMIX受到了广泛关注。许多基于QMIX的方法引入了联合动作值和个体动作值之间的单调性约束，以实现去中心化执行。然而，这种约束限制了值分解的表示能力，限制了它可以表示的联合动作值，并阻碍了最优策略的学习。为了解决这一挑战，我们提出了潜在最优联合动作加权QMIX (POWQMIX)算法，该算法识别潜在的最优联合动作，并在训练过程中为这些联合动作的对应损失分配更高的权重。我们从理论上证明，这种加权训练方法可以保证恢复最优策略。在矩阵博弈、难度增强的捕食者-猎物和星际争霸II多智能体挑战环境中的实验表明，我们的算法优于最先进的基于值的强化学习多智能体方法。