摘要
arXiv:2410.15714v3 通告类型: replace-cross
摘要:近年来,深度学习在实时解决组合优化问题方面展现了显著的潜力。与传统方法不同,深度学习能够高效地生成高质量的解决方案,这对于诸如路径规划和调度的应用至关重要。然而,现有的方法如深度强化学习(RL)和行为克隆具有明显的局限性,深度RL存在学习速度慢的问题,而行为克隆则完全依赖专家动作,可能导致泛化问题和优化目标忽视。本文介绍了针对具复杂约束的组合优化问题的一种新颖的离线RL方法,其中状态表示为异构图,动作空间可变。我们的方法通过边属性编码动作,并平衡预期奖励与专家解决方案的模仿。我们在作业车间调度和可重构作业车间调度基准上证明了该方法的有效性,其性能优于现有的先进方法。