LLM2D

摘要

arXiv:2410.04631v2 公告类型: 代替摘要: 线性时序逻辑（LTL）最近被采纳为在多任务强化学习（RL）中指定复杂、时间延伸任务的强大形式主义。然而，学习能够高效地满足在训练期间未观察到的任意规范的策略仍然是一个具有挑战性的问题。现有方法存在一些不足之处：它们通常仅适用于LTL的有限时间片段，只能提供次优解决方案，并且无法充分处理安全性约束。在本文中，我们提出了一种新的学习方法来解决这些问题。我们的方法利用Büchi自机的结构，Büchi自机明确表示了LTL规范的语义，来学习基于会导致满足所需公式的一系列真值赋值的策略。在各种离散和连续域中的实验表明，我们的方法能够零样本地满足一系列有限时间和无限时间的规范，并且在满足概率和效率方面优于现有方法。代码可在以下网址获得：https://deep-ltl.github.io/