LLM2D
PROPEL:大型供应链规划的监督与强化学习方法
PROPEL: Supervised and Reinforcement Learning for Large-Scale Supply Chain Planning
作者: Vahid Eghbal Akhlaghi, Reza Zandehshahvar, Pascal Van Hentenryck
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07383v1

摘要

arXiv:2504.07383v1 Announce Type: cross 摘要:本文探讨了如何将机器学习(ML)和优化相结合,以解决大规模的供应链计划(SCP)优化问题。这些问题可以被表述为混合整数规划(MIP)模型,包含整数(非二进制)变量和连续变量,以及流动平衡和容量约束。这给现有的结合ML和优化的方法带来了根本性的挑战,这些方法主要关注于二进制MIP问题和图问题。为了解决这些问题,本文提出了一种新的框架PROPEL,该框架结合了优化与监督学习和深度强化学习(DRL),显著减少了搜索空间的大小。PROPEL 使用监督学习,不是为了预测所有整数变量的值,而是为了识别在最优解中被固定为零的变量,利用SCP应用的结构。PROPEL 包括一个DRL组件,在监督学习步骤未能产生具有所需最优性容差的解时,选择哪些固定为零的变量需要放松以提高解的质量。PROPEL 已应用于具有数百万变量的工业供应链计划优化。计算结果表明,在求解时间和质量上取得了显著改进,包括将原始积分减少了60%,原始间隙减少了88%,以及最高分别提高了13.57倍和15.92倍。