摘要
arXiv:2205.10016v3 宣布类型: 替换
摘要:代理的数量可以成为控制多智能体强化学习(MARL)任务难度的有效课程变量。现有工作通常使用手动定义的课程,如线性方案。我们在应用现有的基于奖励的自动课程学习方法时发现两个潜在的问题:(1)用于衡量任务难度的期望回合回报具有很高的方差;(2)在增加代理数量能提高回报率的许多MARL任务中,归因难度可能会加剧,这是一种常见的现象。为了应对这些问题,我们提出了通过使用基于TD误差的“学习进度”度量来控制课程,以及让课程从初始上下文分布逐步过渡到最终的任务特定分布。由于我们的方法维护一个代理数量的分布,并测量学习进度而不是绝对性能,而绝对性能往往会随着代理数量的增加而提高,因此我们解决了问题(2)。此外,学习进步度量自然地通过汇总回报解决了问题(1)。在三个具有挑战性的稀疏奖励MARL基准中,我们的方法优于当前最先进的基线方法。