摘要
线性时序逻辑 (LTL) 近年来被用作一种强大的形式化方法,用于在强化学习 (RL) 中指定复杂、时间延长的任务。然而,学习能够有效满足训练期间未观察到的任意规范的策略仍然是一个具有挑战性的问题。现有的方法存在一些缺陷:它们通常只适用于 LTL 的有限范围片段,仅限于次优解,并且没有充分处理安全约束。在这项工作中,我们提出了一种新颖的学习方法来解决这些问题。我们的方法利用 Büchi 自动机的结构,该结构明确表示 LTL 规范的语义,来学习根据导致满足所需公式的一系列真值赋值来学习策略。在各种离散和连续域中的实验表明,我们的方法能够零样本满足各种有限和无限范围的规范,并且在满足概率和效率方面都优于现有方法。