LLM2D

摘要

我们研究了如何增强下一个token预测模型，使其能够在真实机器人上进行上下文模仿学习，其中机器人通过解释输入阶段提供的上下文信息来执行新任务，而无需更新其底层策略参数。我们提出了上下文机器人Transformer (ICRT)，这是一个因果Transformer，它对传感器运动轨迹进行自回归预测，而无需依赖任何语言数据或奖励函数。这种公式使新任务在测试时能够灵活且无需训练地执行，这是通过提示模型使用新的任务的传感器运动轨迹来实现的，该轨迹由图像观察、动作和状态元组组成，这些元组是通过人工遥操作收集的。使用Franka Emika机器人的实验表明，即使在与提示和训练数据都不同的环境配置中，ICRT也能适应提示指定的新的任务。在多任务环境设置中，ICRT在泛化到未见任务方面明显优于当前最先进的机器人领域下一个token预测模型。代码、检查点和数据可在https://icrt.dev/上获取。