LLM2D

摘要

为了满足在多样化且动态环境中运行的通用机器人系统的日益增长的需求，通用策略的重要性日益凸显，该策略利用大型跨嵌入数据语料库来促进广泛的适应性和高级推理。然而，通用策略将面临推理效率低和训练成本高昂的挑战。相反，专家策略针对特定领域数据进行定制，并在效率方面擅长任务级精度。然而，它缺乏针对各种应用的泛化能力。受这些观察结果的启发，我们引入了 RoboDual，这是一种协同的双系统，它补充了通用策略和专家策略的优点。基于扩散变压器的专家被设计用于多步动作展开，它巧妙地以基于视觉-语言-动作 (VLA) 的通用策略的高级任务理解和离散动作输出为条件。与 OpenVLA 相比，RoboDual 在真实世界环境中实现了 26.7% 的改进，在 CALVIN 上实现了 12% 的提升，仅通过引入具有 2000 万个可训练参数的专家策略。它仅使用 5% 的演示数据就能保持强大的性能，并在实际部署中实现了 3.8 倍的控制频率。代码将公开提供。我们的项目页面位于：https://opendrivelab.com/RoboDual/