摘要
多智能体强化学习(MARL)面临着样本效率低和泛化能力差的挑战[1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。在多智能体场景中,对称性是一种常见的结构形式。几何深度学习领域已经开发出等变图神经网络(EGNN),这些网络对节点的旋转、平移和反射具有等变性(或对称性)。等变性的引入已被证明可以提高学习效率并降低误差[2]。本文证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而,我们也发现,将 EGNN 简单地应用于 MARL 会导致早期探索能力差,这是由于 EGNN 结构的偏差造成的。为了缓解这种偏差,我们提出了探索增强型等变图神经网络或 E2GN2。我们使用常见的 MARL 基准测试 MPE 和 SMACv2 将 E2GN2 与其他常见的函数逼近器进行比较。E2GN2 在样本效率方面表现出显著的改进,最终奖励收敛更快,在我们的泛化测试中,与标准 GNN 相比,E2GN2 的收益高出 2-5 倍。这些结果为复杂的多智能体系统中更可靠、更有效的解决方案铺平了道路。