LLM2D

摘要

多智能体路径规划（MAPF）是一个具有挑战性的计算问题，通常需要在共享环境中为多个智能体找到无碰撞路径。尽管求解 MAPF 的最优解是 NP 难问题，但高效的解决方案对于自动化仓库和交通系统等众多应用至关重要。近年来，基于学习的 MAPF 方法备受关注，尤其是那些利用深度强化学习的方法。遵循机器学习的最新趋势，我们为 MAPF 问题创建了一个基础模型，称为 MAPF-GPT。使用模仿学习，我们在预先收集的一组次优专家轨迹上训练了一个策略，该策略可以在部分可观察的情况下生成动作，而无需额外的启发式方法、奖励函数或与其他智能体的通信。产生的 MAPF-GPT 模型在解决训练数据集中不存在的 MAPF 问题实例时，展示了零样本学习能力。我们表明，MAPF-GPT 在各种问题实例上明显优于当前性能最好的可学习 MAPF 求解器，并且在计算效率方面（在推理模式下）很高。