摘要
arXiv:2504.04850v1 宣布类型: 新
摘要: 在本文中,我们提出了一种集中式多智能体学习框架,用于学习一个策略来建模多个需要协调以解决特定任务的智能体的并发行为。集中式方法通常会遭受由所有个体行动可能组合定义的动作空间爆炸的问题,这被称为联合动作。我们的方法通过顺序抽象来解决协调问题,克服了集中式方法通常面临的比例问题。这种方法引入了一个名为“监督器”的元智能体,将联合动作抽象为按顺序为每个智能体分配动作。这种顺序抽象不仅简化了集中式的联合动作空间,还增强了框架的比例性和效率。我们的实验结果证明了所提出的方法能够在各种不同规模的多智能体学习环境中成功协调智能体。