摘要
arXiv:2410.08001v3 宣布类型: 替换-交叉
摘要:随着对能够在多样化和动态环境中操作的多功能机器人系统的市场需求不断增加,通用策略的重要性日益突出。通用策略通过利用广泛的跨体态数据集来促进广泛的适应性和高级推理。然而,通用策略在推理过程中效率低下,且训练成本高昂。相反,专业策略针对特定领域数据进行了精曲,擅长任务级别的精确性且效率高。然而,它缺乏广泛的适应能力。受到这些观察的启发,我们提出了RoboDual,这是一种协同的双系统,可以在通用策略和专业策略的优点之间进行补充。基于扩散变换器的专业策略用于多步动作快照,基于视觉-语言-行动(VLA)的通用策略进行高级任务理解和离散动作输出的精细条件。与OpenVLA相比,RoboDual在现实环境中实现了26.7%的改进,并且通过引入一个仅有2000万可训练参数的专业策略,在CALVIN上实现了12%的收益。RoboDual仅使用5%的演示数据就能保持强劲的表现,并在实际部署中实现了3.8倍更高的控制频率。代码将公开发布。我们的项目页面托管在:https://opendrivelab.com/RoboDual/