摘要
大多数强化学习(RL)方法侧重于在低级动作空间中学习最优策略。尽管这些方法在其训练环境中表现良好,但它们缺乏灵活性,无法迁移到新任务中。相比之下,能够执行有用、时间延展技能而非低级动作的RL代理可以更容易地学习新任务。基于技能的RL先前工作要么需要专家监督来定义有用技能,这难以扩展,要么从离线数据中学习技能空间,但这些技能受限于启发式方法,适应性有限,使得它们在下游RL中难以迁移。我们的方法EXTRACT则利用预训练的视觉语言模型从离线数据中提取一组离散的语义上有意义的技能,每个技能由连续参数化,无需人工监督。这种技能参数化使得机器人只需学习何时选择特定技能以及如何为特定任务修改其参数,从而学习新任务。我们在稀疏奖励、基于图像的机器人操作环境中进行的实验表明,EXTRACT比先前的工作能更快地学习新任务,并在样本效率和性能上取得了显著提升。