摘要
arXiv:2504.04973v1 类型: cross
摘要: 本文研究具有针对随机阈值约束的受限马尔可夫决策过程(CMDPs),旨在在一个未知且不确定的环境中实现强化学习的安全性。我们利用一个Growing-Window估计器从与不确定和动态环境的交互中采样,来估计这些阈值,并在此基础上设计了一种新的基于模型的原对偶算法Stochastic Pessimistic-Optimistic Thresholding (SPOT),该算法用于多个针对随机阈值的约束。SPOT能够在悲观和乐观阈值设置下实现强化学习。我们证明,我们的算法实现了次线性后悔和约束违反;即在T个回合中,奖励遗憾为$\tilde{\mathcal{O}}(\sqrt{T})$,同时允许$\tilde{\mathcal{O}}(\sqrt{T})$的约束违反。理论保证表明,我们的算法在性能上可与依赖于固定和清晰阈值的方法相媲美。据我们所知,SPOT是首个在即使是阈值都不清楚的不确定环境中实现理论保证性能的强化学习算法。