LLM2D

摘要

多智能体强化学习 (MARL) 算法面临着由于联合状态-动作空间大小呈指数增长而导致的有效探索挑战。虽然示范引导学习在单智能体环境中已被证明是有益的，但其直接应用于 MARL 会受到获取联合专家示范的实际困难的阻碍。在这项工作中，我们引入了一种新颖的个性化专家示范概念，该概念针对每个单独的智能体，或者更广泛地说，针对异构团队中每种类型的智能体进行定制。这些示范仅与单智能体行为以及每个智能体如何实现个人目标有关，而不包含任何合作元素，因此简单地模仿它们不会实现合作，因为可能存在冲突。为此，我们提出了一种选择性地利用个性化专家示范作为指导并允许智能体学习合作的方法，即个性化专家引导 MARL (PegMARL)。该算法利用两个判别器：第一个根据单个智能体行为与示范的一致性提供激励，第二个根据行为是否导致预期结果来调节激励。我们在离散和连续环境中使用个性化示范评估 PegMARL。结果表明，即使提供次优示范，PegMARL 也可以学习接近最优的策略，并且在解决协调任务方面优于最先进的 MARL 算法。我们还展示了 PegMARL 利用星际争霸场景中联合示范的能力，即使使用来自非协同训练策略的示范也能有效收敛。