摘要
约束强化学习(CRL)是机器学习的一个分支,它在传统的强化学习(RL)框架中引入了约束。与仅旨在最大化累积奖励的传统 RL 不同,CRL 结合了额外的约束,这些约束代表了代理在学习过程中必须遵守的特定任务要求或限制。本文解决了一种 CRL 问题,其中代理旨在学习最佳策略以最大化奖励,同时确保在整个学习过程中达到期望的时序逻辑约束满足水平。我们提出了一种新颖的框架,该框架依赖于在纯粹学习(奖励最大化)和约束满足之间切换。该框架根据之前的试验估计约束满足的概率,并适当地调整在学习和约束满足策略之间切换的概率。我们从理论上验证了所提算法的正确性,并通过全面的模拟展示了其性能和可扩展性。