LLM2D
SEAL:基于语言模型的语义增强模仿学习
SEAL: SEmantic-Augmented Imitation Learning via Language Model
作者: Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong, Yize Chen
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02231v1

摘要

分层模仿学习 (HIL) 是一种很有前景的方法,可以用于解决长时域决策任务。然而,由于缺乏子目标学习的详细监督标签,以及对数百到数千个专家演示的依赖,这是一个具有挑战性的任务。在这项工作中,我们介绍了 SEAL,一个新颖的框架,利用大型语言模型 (LLMs) 的强大语义和世界知识,既可以指定子目标空间,又可以对状态进行预标记,以获得语义上有意义的子目标表示,而无需事先了解任务层次结构。SEAL 采用双编码器结构,将监督的 LLM 引导的子目标学习与无监督的矢量量化 (VQ) 相结合,以获得更鲁棒的子目标表示。此外,SEAL 还整合了一个过渡增强型低级规划器,以更好地适应子目标过渡。我们的实验表明,SEAL 优于最先进的 HIL 方法和基于 LLM 的规划方法,尤其是在专家数据集较小且任务复杂的长时域任务设置中。