摘要
arXiv:2411.04867v2 安全提示类型: 替换
摘要:安全强化学习(RL)对于实际应用至关重要,而多智能体交互引入了额外的安全挑战。虽然概率逻辑遮蔽(PLS)已在单智能体RL中提供了一种强大的安全增强方案,但其在多智能体环境中的普适性尚未被探索。在本文中,我们通过在去中心化多智能体环境中对PLS进行广泛的分析,填补了这一空白,并在此基础上提出Shielded Multi-Agent Reinforcement Learning(SMARL)作为引导MARL朝着规范合规结果的一般框架。我们的主要贡献包括:(1)一种新颖的概率逻辑时差(PLTD)更新,用于防护的独立Q学习,该更新直接将概率约束纳入价值更新过程;(2)一种概率逻辑策略梯度方法,用于防护PPO,并为MARL提供形式化安全保证;(3)在对称和非对称防护的n玩家博弈论基准测试中进行全面评估,结果显示在规范约束下约束违犯次数较少,且合作性能显著提高。这些结果表明SMARL是一种有效的均衡选择机制,为更安全、社会相符的多智能体系统奠定了道路。