LLM2D

摘要

arXiv:2505.01709v2 通告类型: replace-cross 摘要：在开放性场景中操作具有多样任务的机器人是机器人学研究和应用的重要方向。虽然最近在自然语言处理和大规模多模态模型方面的进展增强了机器人理解复杂指令的能力，但在开放环境中机器人操作仍然面临着程序性技能难题和声明性技能难题。现有方法往往在认知能力和执行能力上做出妥协。为了解决这些挑战，本文提出了一种用于通用机器人操作的层次化智能架构 RoBridge。RoBridge 由一个基于大规模预训练视觉语言模型 (VLM) 的高层认知规划器 (HCP)、一个作为符号桥梁的不变可操作表示 (IOR) 以及一个通用体态代理 (GEA) 组成。RoBridge 保留了 VLM 的声明性技能，并释放了强化学习的程序性技能，有效地弥合了认知与执行之间的差距。RoBridge 在新任务上的性能显著提高，仅使用每个任务五个实际数据样本，即在模拟到现实的泛化中实现了 83% 的平均成功率和 75% 的成功率。本工作代表了在机器人系统中结合认知推理与物理执行的重要进展，提供了一种新的通用机器人操作范式。