LLM2D

摘要

arXiv:2503.16371v2 更新类型: 替换摘要: 领域独立动态规划（DIDP）是一种基于动态规划的空间状态搜索范式，用于组合优化。在当前实现中，DIDP 使用用户定义的双重边界来引导搜索。强化学习（RL）越来越多地被应用于组合优化问题，并且与动态规划（DP）共享几个关键结构，DP 通过贝尔曼方程和基于状态的转换系统来表示。我们提出使用强化学习来获得一个启发式函数，以引导DIDP中的搜索。我们开发了两种基于RL的引导方法：基于深度Q网络的价值函数引导，以及基于近端策略优化的策略引导。我们的实验表明，基于RL的引导显著优于标准的DIDP和具有相同节点扩展数的问题特定贪婪启发式方法。此外，尽管节点评估时间较长，但基于RL的引导在三个基准领域中实现了比标准DIDP更优秀的运行时性能。