摘要
arXiv:2503.18607v1 公告类型:交叉
摘要:在非稳态环境中进行强化学习极具挑战性,因为动态往往会出现突然且不可预测的变化,这常常导致传统的算法无法收敛。然而,在许多实际情况下,非稳态性具有可以被利用的结构,这有助于开发算法并简化理论分析。我们引入了一种这样的结构——切换非稳态马尔可夫决策过程(SNS-MDP),即环境会基于一个内部马尔可夫链的变化而切换。在固定策略下,SNS-MDP的价值函数由马尔可夫链的统计特性确定,尽管存在固有的非稳态性,时差学习方法(TD学习方法)仍然可以收敛到正确的价值函数。此外,可以进行策略改进,并且展示了策略迭代可以收敛到最优策略。而且,由于Q学习可以收敛到最优Q函数,因此它同样会导出相应的最优策略。为了说明SNS-MDP的实际优势,我们提供了一个通信网络中的示例,其中信道噪声遵循马尔可夫模式,展示了这种框架如何有效地指导复杂、时间变化的环境中做出决策。