摘要
arXiv:2405.16386v3 描述类型: replace-cross
摘要:技能是为顺序决策建立的有效的时间抽象,它们在长时周期任务中实现高效的分层学习,并通过可转移性促进多任务学习。尽管进行了广泛的研究,但在多智能体场景中仍存在研究空白,特别是自动提取多智能体任务中的子组协调模式。为了解决这一挑战,我们提出了两种新颖的自动编码器方案:VO-MASD-3D 和 VO-MASD-Hier,以同时捕捉子组和时间级别抽象,并形成多智能体技能。这些方案的一个关键技术组件是能够基于任务中的智能体交互自动检测潜在子组的动态分组函数。此外,我们的方法可以应用于离线多任务数据,并且发现的子组技能可以在相关任务之间进行转移而无需重新训练。在 StarCraft 任务上的实证评估表明,我们的方法显著优于现有的多智能体强化学习(MARL)方法。此外,使用我们方法发现的技能可以有效地降低多智能体强化学习(MARL)场景中带有延迟和稀疏奖励信号的学習难度。代码库可在 https://github.com/LucasCJYSDL/VOMASD 获取。