LLM2D
离线强化学习在作业车间调度中的学习派单方法
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling
作者: Jesse van Remmerden, Zaharah Bukhsh, Yingqian Zhang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2409.10589v3

摘要

arXiv:2409.10589v3 宣传类型:替换交叉 摘要:车间调度问题(JSSP)是一个复杂的组合优化问题。尽管在线强化学习(RL)通过快速找到JSSP的可接受解展现出了潜力,但它面临着一些关键限制:它需要从头开始进行大量的训练交互,导致样本效率低下,无法利用现有的高质量解,并且常常比约束编程(CP)等传统方法产生次优结果。我们引入了离线强化学习以学习调度(Offline-LD),通过学习之前生成的解来解决这些限制问题。我们的方法受到历史调度数据和专家解可用的场景的启发,尽管当前的评估主要集中在基准问题上。Offline-LD 对适用于可屏蔽动作空间的两种 CQL 基本 Q 学习方法(mQRDQN 和离散 mSAC)进行了调整,引入了一种新颖的离散 SAC 的熵奖金修改,并利用预处理中的奖励归一化。我们的实验表明,Offline-LD 在生成实例和基准实例上均优于在线 RL。值得注意的是,通过将噪声引入专家数据集,我们能够在一些情况下达到甚至超过使用专家数据集时的结果,这表明一个更具多样性的训练集可能更优,因为它包含了反事实信息。