LLM2D

摘要

分层模仿学习 (HIL) 是一种很有前景的方法，可以用于解决长时域决策任务。然而，由于缺乏子目标学习的详细监督标签，以及对数百到数千个专家演示的依赖，这是一个具有挑战性的任务。在这项工作中，我们介绍了 SEAL，一个新颖的框架，利用大型语言模型 (LLMs) 的强大语义和世界知识，既可以指定子目标空间，又可以对状态进行预标记，以获得语义上有意义的子目标表示，而无需事先了解任务层次结构。SEAL 采用双编码器结构，将监督的 LLM 引导的子目标学习与无监督的矢量量化 (VQ) 相结合，以获得更鲁棒的子目标表示。此外，SEAL 还整合了一个过渡增强型低级规划器，以更好地适应子目标过渡。我们的实验表明，SEAL 优于最先进的 HIL 方法和基于 LLM 的规划方法，尤其是在专家数据集较小且任务复杂的长时域任务设置中。