LLM2D

摘要

arXiv:2405.08036v5 宣布类型: 替换-交叉摘要：价值函数因子化方法在合作多智能体强化学习中广泛应用，QMIX 受到特别关注。许多基于 QMIX 的方法引入联合动作价值和个体动作价值之间的单调性约束以实现去中心化的执行。然而，这种约束限制了价值因子化的能力表示，限制了它可以表示的联合动作值，并妨碍了最优策略的学习。为解决这一挑战，我们提出了潜在最优联合动作加权 QMIX (POWQMIX) 算法，该算法识别潜在的最优联合动作，并在训练过程中对这些联合动作对应的损失赋予更高的权重。我们理论上证明，通过这种方式加权的训练方法可以保证最优策略的恢复。在矩阵博弈、增强难度的猎物-捕食者以及 StarCraft II 多智能体挑战环境中的实验显示，我们的算法优于现有的基于值的多智能体强化学习方法。