LLM2D

摘要

多智能体强化学习（MARL）面临着样本效率低和泛化能力差的挑战 [1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。多智能体场景中普遍存在的一种结构形式是对称性。几何深度学习领域已经开发了等变图神经网络（EGNN），它们对节点的旋转、平移和反射保持等变（或对称）。已证明，加入等变性可以提高学习效率并降低错误率 [2]。在本文中，我们证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而，我们也发现，将 EGNN 简单地应用于 MARL 会导致早期探索能力不足，因为 EGNN 结构存在偏差。为了减轻这种偏差，我们提出了探索增强等变图神经网络（E2GN2）。我们使用常见的 MARL 基准 MPE 和 SMACv2，将 E2GN2 与其他常见的函数逼近器进行了比较。在我们的泛化测试中，E2GN2 在样本效率方面取得了显著提高，最终奖励收敛性更好，并且与标准 GNN 相比，在泛化方面取得了 2 倍到 5 倍的提升。这些结果为构建更可靠、更有效的复杂多智能体系统解决方案铺平了道路。