LLM2D

摘要

arXiv:2501.01136v2 宣告类型: replace-cross 摘要：多智能体强化学习已成为一种强大的框架，使智能体能够学习复杂的协调行为，但面临泛化、可扩展性和样本效率方面的持续挑战。近期的进步试图通过在策略中嵌入系统的内在对称性来缓解这些问题。然而，大多数动力学系统几乎没有可以利用的内在对称性。本文提出了一种新的框架，用于将外部对称性嵌入到多智能体系统的动力学中，从而使使用对称性增强的方法能够处理缺乏足够内在对称性的系统，将等变学习的应用范围扩展到各种各样的多智能体强化学习（MARL）问题。本框架的核心是组等变Graphormer，这是一种专门针对分布式集群任务设计的组模块化架构。在一群打破对称性的四旋翼无人机上的大量实验验证了我们方法的有效性，展示了其在提高泛化能力和零样本可扩展性方面的潜力。我们的方法在多种场景和不同群集规模下，显著降低了碰撞率并提高了任务成功率。