摘要
多智能体强化学习(MARL)面临着样本效率低和泛化能力差的挑战 [1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。多智能体场景中普遍存在的一种结构形式是对称性。几何深度学习领域已经开发了等变图神经网络(EGNN),它们对节点的旋转、平移和反射保持等变(或对称)。已证明,加入等变性可以提高学习效率并降低错误率 [2]。在本文中,我们证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而,我们也发现,将 EGNN 简单地应用于 MARL 会导致早期探索能力不足,因为 EGNN 结构存在偏差。为了减轻这种偏差,我们提出了探索增强等变图神经网络(E2GN2)。我们使用常见的 MARL 基准 MPE 和 SMACv2,将 E2GN2 与其他常见的函数逼近器进行了比较。在我们的泛化测试中,E2GN2 在样本效率方面取得了显著提高,最终奖励收敛性更好,并且与标准 GNN 相比,在泛化方面取得了 2 倍到 5 倍的提升。这些结果为构建更可靠、更有效的复杂多智能体系统解决方案铺平了道路。