摘要
arXiv:2502.13392v1 宣布类型: 新
摘要: Waymo等先锋公司已在多个美国城市部署了机器人出租车服务。这些机器人出租车是电动车辆,其运营需要在随机环境中对行程匹配、车辆重新定位和充电调度进行联合优化。我们将配备机器人出租车的叫车系统运营建模为一个离散时间、平均回报马尔可夫决策过程,具有无限视野。随着车队规模的扩大,调度变得具有挑战性,因为系统状态集合和车队调度动作集随着车辆数量呈指数增长。为了解决这一问题,我们引入了一种可扩展的深度强化学习算法,称为原子近似策略优化(Atomic-PPO),该算法通过原子动作分解减少了动作空间。我们使用实际的纽约市有偿车辆数据评估了该算法,并通过调度策略相对于基于连续流的回报上限实现的长期平均回报来衡量性能。我们的实验证明,我们的Atomic-PPO在基准算法中表现出更优异的性能。此外,我们进行了广泛的数值实验,以分析充电设施的有效分配,并评估车辆续驶里程和充电速度对车队性能的影响。