LLM2D
基于下一词预测的上下文模仿学习
In-Context Imitation Learning via Next-Token Prediction
作者: Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2408.15980v2

摘要

我们研究了如何增强下一个token预测模型,使其能够在真实机器人上进行上下文模仿学习,其中机器人通过解释输入阶段提供的上下文信息来执行新任务,而无需更新其底层策略参数。我们提出了上下文机器人Transformer (ICRT),这是一个因果Transformer,它对传感器运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。这种公式使新任务在测试时能够灵活且无需训练地执行,这是通过提示模型使用新的任务的传感器运动轨迹来实现的,该轨迹由图像观察、动作和状态元组组成,这些元组是通过人工遥操作收集的。使用Franka Emika机器人的实验表明,即使在与提示和训练数据都不同的环境配置中,ICRT也能适应提示指定的新的任务。在多任务环境设置中,ICRT在泛化到未见任务方面明显优于当前最先进的机器人领域下一个token预测模型。代码、检查点和数据可在https://icrt.dev/上获取。