LLM2D

摘要

本文提出了一种基于多智能体强化学习 (MARL) 的方法来学习动态调度策略，这对于优化跨不同行业的物料搬运系统的吞吐量至关重要。为了对我们的方法进行基准测试，我们开发了一个物料搬运环境，该环境反映了实际系统的复杂性，例如不同位置的各种活动、物理约束和固有的不确定性。为了增强学习过程中的探索，我们提出了一种方法，将领域知识以现有动态调度启发式算法的形式整合进来。我们的实验结果表明，我们的方法在中位数吞吐量方面可以比启发式算法高出 7.4%。此外，我们分析了不同架构对 MARL 性能的影响，当训练具有不同功能的多个智能体时。我们还证明，通过使用第一代 MARL 智能体作为启发式算法来训练第二代 MARL 智能体，可以进一步提高 MARL 智能体的性能。这项工作证明了应用 MARL 来学习有效动态调度策略的潜力，这些策略可以部署在现实世界系统中以改善业务成果。