LLM2D

摘要

arXiv:2407.14931v3 公告类型: 更改交叉引用摘要：多智能体强化学习（MARL）在各种环境中解决具有挑战性的合作和竞争多智能体问题方面最近取得了显著成就，通常涉及少量智能体和完全可观测性。此外，许多传统的基于经典非学习方法（例如：启发式搜索）来处理的机器人相关任务，如多机器人路径规划，现在被建议使用基于学习或混合方法来解决。然而，在此领域，由于缺乏一种支持学习和评估的统一框架，要进行公平的比较，无论是经典方法、基于学习的方法还是混合方法之间，仍然非常困难，甚至不可能。为了解决这一问题，我们引入了 POGEMA，这是一个全面的工具包，包括快速学习环境、问题实例生成器、预定义问题实例集合、可视化工具以及自动化评估的基准测试工具。我们也引入并定义了一个评估协议，该协议基于主要评估指标（如成功率和路径长度）计算了一系列与领域相关的度量标准，从而实现公平的多折比较。该比较涉及多种最先进的 MARL、基于搜索和混合方法的结果被呈现了出来。