LLM2D

摘要

目前学习多智能体协作行为的方法通常假设相对有限的环境。在标准的完全协作多智能体强化学习中，学习算法控制场景中的所有智能体，而在临时合作中，学习算法通常只控制场景中的单个智能体。然而，现实世界中许多协作场景的限制要少得多。例如，在自动驾驶场景中，一家公司可能会使用相同的学习算法训练其汽车，但在上路后，这些汽车必须与另一家公司的汽车合作。为了扩展协作学习方法可以最佳解决的场景类别，我们引入了 N-智能体临时合作 (NAHT)，其中一组自主智能体必须与动态变化的数量和类型的队友进行交互和合作。本文对该问题进行了形式化，并提出了带有智能体建模的策略优化 (POAM) 算法。POAM 是一种用于解决 NAHT 问题的策略梯度多智能体强化学习方法，通过学习队友行为的表示来实现对不同队友行为的适应。在多智能体粒子环境和星际争霸 II 中的任务上的实证评估表明，与基线方法相比，POAM 提高了协作任务收益，并能够对看不见的队友进行分布外泛化。