LLM2D

摘要

arXiv:2502.08985v1 任务类型: cross 摘要：作为一种数据驱动的方法，线下多智能体强化学习（MARL）仅从离线数据集中学习出优秀的策略，适用于历史数据丰富但交互成本高且风险高的领域。然而，大多数现有方法都是任务特定的，需要为新任务重新训练，导致冗余和低效率。为了解决这一问题，本文提出了一种任务高效的多任务离线MARL算法，即技能发现保守Q学习（Skill-Discovery Conservative Q-Learning，SD-CQL）。与现有的离线技能发现方法不同，SD-CQL通过重构下一个观察来发现技能，然后分别评估固定和变化的动作，并采用行为正则化的保守Q学习执行每种技能下的最优动作。这种方法消除了局部-全局对齐的需要，并能够从有限的小规模源任务中实现强多任务泛化能力。在StarCraftII的大量实验表明，SD-CQL在泛化能力和任务效率方面具有优越性。在14个任务集中，SD-CQL在10个任务集中表现最佳，单任务集最高提高了65%，在剩余四个任务集中，其性能距离最佳基线不超过4%。