LLM2D

摘要

多智能体强化学习（MARL）面临着样本效率低和泛化能力差的挑战[1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。在多智能体场景中，对称性是一种常见的结构形式。几何深度学习领域已经开发出等变图神经网络（EGNN），这些网络对节点的旋转、平移和反射具有等变性（或对称性）。等变性的引入已被证明可以提高学习效率并降低误差[2]。本文证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而，我们也发现，将 EGNN 简单地应用于 MARL 会导致早期探索能力差，这是由于 EGNN 结构的偏差造成的。为了缓解这种偏差，我们提出了探索增强型等变图神经网络或 E2GN2。我们使用常见的 MARL 基准测试 MPE 和 SMACv2 将 E2GN2 与其他常见的函数逼近器进行比较。E2GN2 在样本效率方面表现出显著的改进，最终奖励收敛更快，在我们的泛化测试中，与标准 GNN 相比，E2GN2 的收益高出 2-5 倍。这些结果为复杂的多智能体系统中更可靠、更有效的解决方案铺平了道路。