LLM2D

摘要

arXiv:2501.13727v2 宣告类型: replace-cross 摘要：安全性和可扩展性是实用多智能体系统（MAS）面临的两个关键挑战。然而，现有仅依赖于奖励塑形的多智能体强化学习（MARL）算法在确保安全方面效果不佳，而且由于固定大小的网络输出，其可扩展性也受到相当大的限制。为了解决这些问题，我们提出了一种名为可扩展安全MARL（SS-MARL）的新框架，以增强MARL方法的安全性和可扩展性。利用MAS固有的图结构，我们设计了一种多层次的消息传递网络来聚合不同大小的局部观测和通信。此外，我们开发了一种在局部观测设置下的约束联合策略优化方法，以提高安全性。仿真实验表明，SS-MARL 在最优性和安全性之间实现了比基线方法更好的权衡，并且在大量智能体的场景中，其可扩展性显著优于最新方法。