LLM2D

摘要

在多智能体强化学习（MARL）中，参数共享通常被用来提高样本效率。然而，流行的全参数共享方法往往会导致智能体之间策略的同质化，这可能会限制从策略多样性中获得的性能优势。为了解决这一关键限制，我们引入了**万花筒**，这是一种新颖的自适应部分参数共享方案，它在保持高样本效率的同时促进策略异质性。具体来说，万花筒维护一组公共参数以及多组不同的、可学习的掩码，用于不同的智能体，用于指示参数的共享。它通过鼓励这些掩码之间的差异来促进策略网络之间的多样性，而不会牺牲参数共享的效率。这种设计允许万花筒在各种环境中动态平衡高样本效率和广泛的策略表示能力，有效地弥合了全参数共享和非参数共享之间的差距。我们进一步将万花筒扩展到演员-评论家算法中的评论家集合，这有助于提高价值估计。我们在包括多智能体粒子环境、多智能体 MuJoCo 和星际争霸多智能体挑战 v2 在内的广泛环境中进行的实证评估表明，与现有的参数共享方法相比，万花筒具有优越的性能，展示了其在 MARL 中提高性能的潜力。代码已在 \url{https://github.com/LXXXXR/Kaleidoscope} 上公开发布。