摘要
现实世界充满了不可预测性。因此,为了解决自主机器人长期的决策问题,我们必须构建能够在部署过程中适应环境变化的智能体。基于模型的规划方法可以使机器人能够在各种环境中解决复杂的长期的任务。然而,当部署到包含其底层模型未考虑的新情况的环境中时,这种方法往往很脆弱。在这项工作中,我们建议通过强化学习 (RL) 学习一个“桥接策略”来适应这些新情况。我们为这种学习引入了一个简单的公式,其中 RL 问题是用一个特殊的“CallPlanner”动作构建的,该动作会终止桥接策略并将代理的控制权交还给规划器。这使得 RL 策略能够学习查询规划器并遵循返回的计划来实现目标的一组状态。我们表明,这种公式使智能体能够通过利用规划器的知识来快速学习,从而避免了稀疏奖励导致的具有挑战性的长期探索。在三个不同复杂程度的模拟领域中的实验表明,我们的方法能够比几个基线(包括纯 RL 基线)更有效地学习适应新情况的策略。我们还证明了学习到的桥接策略是可泛化的,因为它可以与规划器结合起来,使智能体能够解决包含多个遇到的新情况实例的更复杂的任务。