LLM2D

摘要

arXiv:2502.13392v2 宣告类型: 替换摘要：Waymo 等先锋公司已经在多个美国城市部署了自动驾驶出租车服务。这些自动驾驶出租车是电动车辆，其运行需要在一个随机环境中联合优化行程匹配、车辆重新定位和充电调度。我们将配备自动驾驶出租车的叫车系统运行建模为一个具有无限 horizon 的离散时间、平均回报马尔可夫决策过程。随着车队规模的增大，调度变得更具挑战性，因为随车辆数量增加，系统状态空间和调度动作空间均以指数级增长。为了解决这一问题，我们引入了一种可扩展的深度强化学习算法，称为原子近端策略优化（Atomic-PPO），该算法通过原子动作分解减少了动作空间。我们使用纽约市的实际出租车行程记录来评估该算法，并通过与基于流体的上界实现的长期平均回报来衡量其性能。我们的实验表明，Atomic-PPO 在性能上优于基准方法。此外，我们还进行了广泛的数值实验来分析充电设施的有效分配，并评估车辆行驶范围和充电桩速度对系统性能的影响。