LLM2D

摘要

arXiv:2409.10589v3 宣传类型：替换交叉摘要：车间调度问题（JSSP）是一个复杂的组合优化问题。尽管在线强化学习（RL）通过快速找到JSSP的可接受解展现出了潜力，但它面临着一些关键限制：它需要从头开始进行大量的训练交互，导致样本效率低下，无法利用现有的高质量解，并且常常比约束编程（CP）等传统方法产生次优结果。我们引入了离线强化学习以学习调度（Offline-LD），通过学习之前生成的解来解决这些限制问题。我们的方法受到历史调度数据和专家解可用的场景的启发，尽管当前的评估主要集中在基准问题上。Offline-LD 对适用于可屏蔽动作空间的两种 CQL 基本 Q 学习方法（mQRDQN 和离散 mSAC）进行了调整，引入了一种新颖的离散 SAC 的熵奖金修改，并利用预处理中的奖励归一化。我们的实验表明，Offline-LD 在生成实例和基准实例上均优于在线 RL。值得注意的是，通过将噪声引入专家数据集，我们能够在一些情况下达到甚至超过使用专家数据集时的结果，这表明一个更具多样性的训练集可能更优，因为它包含了反事实信息。