LLM2D

摘要

arXiv:2406.18351v2 通知类型: replace-cross 摘要: 强化学习（RL）在库存控制（IC）领域已被证明表现出色且具有普适性。然而，由于在线经验的两个局限性，进一步改进IC领域的RL算法变得困难。首先，在现实世界应用中的在线经验获取成本高昂。由于RL算法的低样本效率特性，要训练RL策略达到收敛需要花费大量时间。其次，在IC中通常存在的缺货现象使得在线经验不一定能够反映真实需求，这使得学习过程更加困难。为了解决以上挑战，我们提出了一种结合强化学习、反馈图（RLFG）和内在动机探索（IME）的决策框架，以提高样本效率。具体来说，我们首先利用缺货IC问题固有的特性，并专门为缺货IC问题设计反馈图（FG），以生成丰富的辅助经验来辅助RL更新。然后，我们对设计的FG如何减少RL方法的样本复杂性进行了严谨的理论分析。基于理论见解，我们设计了一个内在奖励，指导RL代理探索具有更多辅助经验的状态-动作空间，进一步发挥FG的功能。实验结果表明，我们的方法极大地提高了在IC中应用RL的样本效率。我们的代码可在 https://anonymous.4open.science/r/RLIMFG4IC-811D/ 获取。