LLM2D

摘要

无标签运动规划涉及将一组机器人分配到目标位置，同时确保避免碰撞，旨在最小化总行驶距离。该问题为探索、监控和运输等应用中的多机器人系统构成了一个基本模块。我们在一个分散式环境中解决这个问题，其中每个机器人只知道其 $k$ 个最近的机器人和 $k$ 个最近的目标的位置。这种情况结合了组合分配和连续空间运动规划的元素，对传统的集中式方法提出了重大的可扩展性挑战。为了克服这些挑战，我们提出了一种通过图神经网络 (GNN) 学习的分散式策略。GNN 使机器人能够确定 (1) 向邻居通信哪些信息，以及 (2) 如何将接收到的信息与本地观察结果整合起来进行决策。我们使用集中式匈牙利算法作为专家策略，通过模仿学习训练 GNN，并使用强化学习对其进行进一步微调，以避免碰撞并提高性能。广泛的实证评估证明了我们方法的可扩展性和有效性。在 100 个机器人上训练的 GNN 策略可以推广到最多 500 个机器人的场景，平均性能优于最先进的解决方案 8.6%，并且明显优于贪婪的分散式方法。这项工作为在可扩展性至关重要的环境中解决多机器人协调问题奠定了基础。