摘要
arXiv:2504.09831v1 宣布类型: 交叉
摘要: 在这篇论文中,我们研究了一个离线顺序特征定价和库存控制问题,其中当前需求依赖于过去的需求水平,任何超出可用库存的需求将被视为损失。我们的目标是利用包含过去价格、订购量、库存水平、协变量以及删失销售水平的离线数据集,估计能够最大化长期利润的最佳定价和库存控制策略。虽然未经删失的底层动态可以使用马尔可夫决策过程(MDP)建模,但主要障碍来自于存在删失的需求过程,导致利润信息缺失、马尔可夫性质失效以及非稳定最优策略。为了克服这些挑战,我们首先通过求解由连续删失实例数量定义的高阶MDP来近似最优策略,最终归结为解决为该问题专门定制的贝尔曼方程。受离线强化学习和生存分析的启发,我们提出了两种新的数据驱动算法来解决这些贝尔曼方程,从而估计最优策略。此外,我们建立了有限样本的后悔界来验证这些算法的有效性。最后,我们进行了数值实验以证明这些算法在估计最优策略方面的有效性。据我们所知,这是第一个在以删失和相关需求为特征的顺序决策环境中学习最优定价和库存控制策略的数据驱动方法。所提出的算法的实现可以在 https://github.com/gundemkorel/Inventory_Pricing_Control 获取。