摘要
arXiv:2502.08985v1 任务类型: cross
摘要:作为一种数据驱动的方法,线下多智能体强化学习(MARL)仅从离线数据集中学习出优秀的策略,适用于历史数据丰富但交互成本高且风险高的领域。然而,大多数现有方法都是任务特定的,需要为新任务重新训练,导致冗余和低效率。为了解决这一问题,本文提出了一种任务高效的多任务离线MARL算法,即技能发现保守Q学习(Skill-Discovery Conservative Q-Learning,SD-CQL)。与现有的离线技能发现方法不同,SD-CQL通过重构下一个观察来发现技能,然后分别评估固定和变化的动作,并采用行为正则化的保守Q学习执行每种技能下的最优动作。这种方法消除了局部-全局对齐的需要,并能够从有限的小规模源任务中实现强多任务泛化能力。在StarCraftII的大量实验表明,SD-CQL在泛化能力和任务效率方面具有优越性。在14个任务集中,SD-CQL在10个任务集中表现最佳,单任务集最高提高了65%,在剩余四个任务集中,其性能距离最佳基线不超过4%。