LLM2D

摘要

对多功能机器人系统在各种动态环境中运行的日益增长的需求强调了通才策略的重要性，该策略利用大型跨嵌入数据语料库来促进广泛的适应性和高级推理。然而，通才在推理效率和训练成本方面面临挑战。相反，专家策略针对特定领域数据进行定制，在任务级精度和效率方面表现出色。然而，它缺乏对各种应用的泛化能力。受这些观察结果的启发，我们引入了 RoboDual，这是一个协同的双系统，它补充了通才和专家策略的优点。我们设计了一个基于扩散变换器的专家，用于多步动作展开，它巧妙地以基于视觉-语言-动作 (VLA) 的通才的高级任务理解和离散动作输出为条件。与 OpenVLA 相比，RoboDual 在现实世界环境中实现了 26.7% 的改进，在 CALVIN 上实现了 12% 的提升，仅通过引入具有 2000 万个可训练参数的专家策略就实现了这一点。它仅使用 5% 的演示数据就能保持强大的性能，并在现实世界部署中实现了 3.8 倍更高的控制频率。代码将公开发布。我们的项目页面位于：https://opendrivelab.com/RoboDual/