LLM2D
基于强化学习的启发式方法以指导领域独立的动态规划
Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming
作者: Minori Narita, Ryo Kuroiwa, J. Christopher Beck
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2503.16371v2

摘要

arXiv:2503.16371v2 更新类型: 替换 摘要: 领域独立动态规划(DIDP)是一种基于动态规划的空间状态搜索范式,用于组合优化。在当前实现中,DIDP 使用用户定义的双重边界来引导搜索。强化学习(RL)越来越多地被应用于组合优化问题,并且与动态规划(DP)共享几个关键结构,DP 通过贝尔曼方程和基于状态的转换系统来表示。我们提出使用强化学习来获得一个启发式函数,以引导DIDP中的搜索。我们开发了两种基于RL的引导方法:基于深度Q网络的价值函数引导,以及基于近端策略优化的策略引导。我们的实验表明,基于RL的引导显著优于标准的DIDP和具有相同节点扩展数的问题特定贪婪启发式方法。此外,尽管节点评估时间较长,但基于RL的引导在三个基准领域中实现了比标准DIDP更优秀的运行时性能。