LLM2D

摘要

自回归模型在自然语言处理方面取得了显著的成功。在本工作中，我们为机器人操作任务设计了一个简单但有效的自回归架构。我们提出了分块因果Transformer（CCT），它将因果Transformer的下一个单标记预测扩展到支持单次多标记预测。此外，我们设计了一种新颖的注意力交织策略，允许CCT在教师强制的情况下进行有效地训练。基于CCT，我们提出了自回归策略（ARP）模型，该模型学习自回归地生成动作序列。我们发现动作序列学习能够更好地利用机器人任务中潜在的因果关系。我们在各种机器人操作环境（包括Push-T、ALOHA和RLBench）中评估了ARP，结果表明，它在所有测试环境中都优于最先进的方法，同时在计算和参数规模方面也更有效。视频演示、源代码和ARP模型可以在http://github.com/mlzxy/arp找到。