LLM2D
带有内在激励反馈图的失销库存控制强化学习
Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control
作者: Zifan Liu, Xinran Li, Shibo Chen, Gen Li, Jiashuo Jiang, Jun Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.18351v2

摘要

arXiv:2406.18351v2 通知类型: replace-cross 摘要: 强化学习(RL)在库存控制(IC)领域已被证明表现出色且具有普适性。然而,由于在线经验的两个局限性,进一步改进IC领域的RL算法变得困难。首先,在现实世界应用中的在线经验获取成本高昂。由于RL算法的低样本效率特性,要训练RL策略达到收敛需要花费大量时间。其次,在IC中通常存在的缺货现象使得在线经验不一定能够反映真实需求,这使得学习过程更加困难。为了解决以上挑战,我们提出了一种结合强化学习、反馈图(RLFG)和内在动机探索(IME)的决策框架,以提高样本效率。具体来说,我们首先利用缺货IC问题固有的特性,并专门为缺货IC问题设计反馈图(FG),以生成丰富的辅助经验来辅助RL更新。然后,我们对设计的FG如何减少RL方法的样本复杂性进行了严谨的理论分析。基于理论见解,我们设计了一个内在奖励,指导RL代理探索具有更多辅助经验的状态-动作空间,进一步发挥FG的功能。实验结果表明,我们的方法极大地提高了在IC中应用RL的样本效率。我们的代码可在 https://anonymous.4open.science/r/RLIMFG4IC-811D/ 获取。