LLM2D

摘要

近年来，使用多智能体强化学习 (MARL) 模拟行人得到了广泛研究。本研究考虑了网格世界环境中的道路，并将行人作为使用回声状态网络和最小二乘策略迭代方法的 MARL 智能体进行实现。在这种环境下，研究了这些智能体学习避开其他智能体并向前移动的能力。具体来说，我们考虑了两种类型的任务：在狭窄的直线路线和宽阔的绕行路线之间进行选择，以及走廊中双向行人流。模拟结果表明，当智能体密度不高时，学习是成功的。