摘要
arXiv:2311.17059v2 宣告类型: 替换-交叉
摘要: 本文解决了设计具有未知随机动态的智能体的控制策略的问题,同时使用线性时序逻辑(LTL)来指定控制目标。近期的深度强化学习(DRL)算法旨在计算最大化LTL公式的满足概率的策略,但它们通常会遭受学习速度缓慢的问题。为了解决这一问题,我们提出了一种新颖的深度Q学习算法,显著提高了学习速度。这种增强的学习效率来自于一种以任务为导向的探索策略,该策略优先探索可能有助于任务成功的方向。确定这些方向依赖于LTL任务的自动机表示以及一个部分模型化智能体与环境交互的神经网络。我们提供了比较实验,展示了我们的算法在未见过的环境中进行机器人导航任务时的效率。