LLM2D

摘要

arXiv:2502.05537v1 宣布类型: 新摘要: 强化学习（RL）由于其快速学习、高效且普适性解决方案的能力，已成为组合优化（CO）问题的一种有前途的工具。然而，现有工作主要集中在一次性确定性CO问题上，而对于具有广泛应用前景的顺序随机CO（SSCO）问题，如自适应影响最大化（IM）和传染病干预等，研究却很少。本文研究了SSCO问题，我们首先决定所有时间步的预算分配（例如，自适应IM中的种子节点数量），然后为每个时间步选择节点集。现有的少数关于SSCO的研究简化了问题，假设预算在时间框架上均匀分布，导致次优解。我们提出了一种通用的分层RL（HRL）框架，称为觉醒-睡眠选项（WS-option），这是一种基于选项的两层框架，可以同时在较高层做出自适应预算分配决策并在较低层做出节点选择决策。WS-option 以两个层的马尔可夫决策过程（MDPs）一致形式为起点，捕捉这两个层决策之间的相互依赖性。在此基础上，WS-option 采用了几种创新设计以平衡模型训练的稳定性和计算效率，防止了两个层之间的恶性循环干扰。实验证明，WS-option 在有效性和泛化能力方面明显优于传统方法。此外，所学习的模型可以泛化到更大的图形，这大大降低了计算资源的开销。