LLM2D

摘要

arXiv:2410.03132v5 宣告类型: 替换交叉摘要: 设计一种在各种不同的机器人和任务配置下都能表现出色的通用策略架构仍然是一个关键挑战。在这项工作中，我们通过将机器人动作表示为顺序数据，并通过自回归序列建模生成动作来解决这个问题。现有的自回归架构按顺序生成末端执行器的航点，作为语言建模中的词元，这限制了它们在低频控制任务中的应用。与语言不同，机器人动作是异构的，并且经常包含连续值——例如关节位置、2D像素坐标和末端执行器姿态——这些值不太适合基于语言的建模。基于这一见解，我们引入了一个简单的改进：我们将因果变压器的一次性单词预测扩展为支持单步骤中预测不同数量的词元，通过我们的块因果变压器（CCT）。这一改进使策略在各种不同控制频率的任务中表现出更强的鲁棒性，减少了自回归步骤的效率，并导致混合动作序列设计，通过混合不同类型的动作，并为每种动作类型使用不同的块大小。基于CCT，我们提出了自回归策略（ARP）架构，该架构通过生成混合动作序列来解决操作任务。我们在包括Push-T、ALOHA和RLBench在内的各种机器人操作环境上评估了ARP，并展示了ARP作为一种通用架构，在所有测试基准中与环境特定的最新技术相匹配或表现更好，同时在计算和参数量上更具效率。我们的实地机器人演示视频、所有源代码和ARP的预训练模型可以在 http://github.com/mlzxy/arp 找到。