摘要
arXiv:2502.13392v2 宣告类型: 替换
摘要:Waymo 等先锋公司已经在多个美国城市部署了自动驾驶出租车服务。这些自动驾驶出租车是电动车辆,其运行需要在一个随机环境中联合优化行程匹配、车辆重新定位和充电调度。我们将配备自动驾驶出租车的叫车系统运行建模为一个具有无限 horizon 的离散时间、平均回报马尔可夫决策过程。随着车队规模的增大,调度变得更具挑战性,因为随车辆数量增加,系统状态空间和调度动作空间均以指数级增长。为了解决这一问题,我们引入了一种可扩展的深度强化学习算法,称为原子近端策略优化(Atomic-PPO),该算法通过原子动作分解减少了动作空间。我们使用纽约市的实际出租车行程记录来评估该算法,并通过与基于流体的上界实现的长期平均回报来衡量其性能。我们的实验表明,Atomic-PPO 在性能上优于基准方法。此外,我们还进行了广泛的数值实验来分析充电设施的有效分配,并评估车辆行驶范围和充电桩速度对系统性能的影响。