LLM2D

摘要

约束强化学习（CRL）是机器学习的一个分支，它在传统的强化学习（RL）框架中引入了约束。与仅旨在最大化累积奖励的传统 RL 不同，CRL 结合了额外的约束，这些约束代表了代理在学习过程中必须遵守的特定任务要求或限制。本文解决了一种 CRL 问题，其中代理旨在学习最佳策略以最大化奖励，同时确保在整个学习过程中达到期望的时序逻辑约束满足水平。我们提出了一种新颖的框架，该框架依赖于在纯粹学习（奖励最大化）和约束满足之间切换。该框架根据之前的试验估计约束满足的概率，并适当地调整在学习和约束满足策略之间切换的概率。我们从理论上验证了所提算法的正确性，并通过全面的模拟展示了其性能和可扩展性。