LLM2D

摘要

arXiv:2503.18607v1 公告类型：交叉摘要：在非稳态环境中进行强化学习极具挑战性，因为动态往往会出现突然且不可预测的变化，这常常导致传统的算法无法收敛。然而，在许多实际情况下，非稳态性具有可以被利用的结构，这有助于开发算法并简化理论分析。我们引入了一种这样的结构——切换非稳态马尔可夫决策过程（SNS-MDP），即环境会基于一个内部马尔可夫链的变化而切换。在固定策略下，SNS-MDP的价值函数由马尔可夫链的统计特性确定，尽管存在固有的非稳态性，时差学习方法（TD学习方法）仍然可以收敛到正确的价值函数。此外，可以进行策略改进，并且展示了策略迭代可以收敛到最优策略。而且，由于Q学习可以收敛到最优Q函数，因此它同样会导出相应的最优策略。为了说明SNS-MDP的实际优势，我们提供了一个通信网络中的示例，其中信道噪声遵循马尔可夫模式，展示了这种框架如何有效地指导复杂、时间变化的环境中做出决策。