摘要
arXiv:2501.02977v2 宣布类型: 替换-跨学科
摘要: 顾客导向的车辆路由问题(PVRP)是异质容量车辆路由问题(HCVRP)的一个更一般的抽象,其目标是在不同的车辆配置条件下优化车辆路线,以满足客户的消费需求,每个车辆配置都有针对每位客户的偏好或约束。虽然现有的学习方法在解决HCVRP的实时问题方面展示了潜力,但没有方法能够解决更具实践性和挑战性的PVRP。在本文中,我们提出了一种协作注意力模型(CAMP),这是一种利用多智能体强化学习学习PVRP高效求解器的新方法。CAMP采用专门的基于注意力的编码器架构并行嵌入每个车辆配置的客户嵌入。我们设计了一个智能体之间的通信层,以便在每个解码步骤中跨配置嵌入进行协作决策,并采用批量指针机制来注意配置嵌入以评估下一动作的发生的可能性。我们在PVRP的两种变体上评估了CAMP:带偏好的PVRP,其中偏寝始终影响奖励函数,以及带不同数量的智能体和客户的区域约束PVRP。我们展示了我们学习的求解器在解决质量和计算效率方面与经典最先进的神经多智能体模型相比,达到了具有竞争力的结果。我们已在https://github.com/ai4co/camp开源了我们的代码。