LLM2D
基于循环体验重放的LTL约束策略优化
LTL-Constrained Policy Optimization with Cycle Experience Replay
作者: Ameesh Shah, Cameron Voloshin, Chenxi Yang, Abhinav Verma, Swarat Chaudhuri, Sanjit A. Seshia
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2404.11578v3

摘要

arXiv:2404.11578v3 宣布类型: replace-cross 摘要:线性时序逻辑(LTL)提供了精确的方法来约束强化学习代理的行为。然而,在同时存在满足性和最优性条件的许多场景中,LTL 无法同时捕捉这两种条件。因此,当目标是在LTL约束下优化标量奖励时,需要LTL约束策略优化。在这个受限优化问题在深度强化学习(DRL)环境中变得困难,因为学习到的策略往往会忽略LTL约束,原因在于LTL满足情况的稀疏性。为了解决稀疏性问题,我们引入了周期经验重放(CyclER),这是一种新颖的奖励塑形技术,利用LTL约束的基本结构来引导策略趋向满足约束,通过鼓励部分与约束兼容的行为。我们提供了一个理论保证,即优化CyclER将能够以接近最优的概率实现满足LTL约束的策略。我们在三个连续控制领域评估了CyclER。我们的实验结果表明,与现有的奖励塑形方法相比,同时优化CyclER和现有的标量奖励能够找到性能更优的LTL满足策略。