LLM2D

摘要

arXiv:2411.04867v2 安全提示类型: 替换摘要：安全强化学习（RL）对于实际应用至关重要，而多智能体交互引入了额外的安全挑战。虽然概率逻辑遮蔽（PLS）已在单智能体RL中提供了一种强大的安全增强方案，但其在多智能体环境中的普适性尚未被探索。在本文中，我们通过在去中心化多智能体环境中对PLS进行广泛的分析，填补了这一空白，并在此基础上提出Shielded Multi-Agent Reinforcement Learning（SMARL）作为引导MARL朝着规范合规结果的一般框架。我们的主要贡献包括：（1）一种新颖的概率逻辑时差（PLTD）更新，用于防护的独立Q学习，该更新直接将概率约束纳入价值更新过程；（2）一种概率逻辑策略梯度方法，用于防护PPO，并为MARL提供形式化安全保证；（3）在对称和非对称防护的n玩家博弈论基准测试中进行全面评估，结果显示在规范约束下约束违犯次数较少，且合作性能显著提高。这些结果表明SMARL是一种有效的均衡选择机制，为更安全、社会相符的多智能体系统奠定了道路。