LLM2D

摘要

arXiv:2404.11578v3 宣布类型: replace-cross 摘要：线性时序逻辑（LTL）提供了精确的方法来约束强化学习代理的行为。然而，在同时存在满足性和最优性条件的许多场景中，LTL 无法同时捕捉这两种条件。因此，当目标是在LTL约束下优化标量奖励时，需要LTL约束策略优化。在这个受限优化问题在深度强化学习（DRL）环境中变得困难，因为学习到的策略往往会忽略LTL约束，原因在于LTL满足情况的稀疏性。为了解决稀疏性问题，我们引入了周期经验重放（CyclER），这是一种新颖的奖励塑形技术，利用LTL约束的基本结构来引导策略趋向满足约束，通过鼓励部分与约束兼容的行为。我们提供了一个理论保证，即优化CyclER将能够以接近最优的概率实现满足LTL约束的策略。我们在三个连续控制领域评估了CyclER。我们的实验结果表明，与现有的奖励塑形方法相比，同时优化CyclER和现有的标量奖励能够找到性能更优的LTL满足策略。