LLM2D

摘要

arXiv:2505.01709v1 交叉公告类型摘要：在开放性和多样性的场景中操作机器人是机器人研究和应用的重要方向。尽管自然语言处理和大型多模态模型的近期进展增强了机器人理解和执行复杂指令的能力，但在开放环境中，机器人操作仍然面临着程序技能难题和声明技能难题。现有方法往往在认知能力和执行能力之间做出妥协。为了解决这些问题，本文提出了一种用于通用机器人操作的分层智能架构 RoBridge。RoBridge 由基于大规模预训练视觉-语言模型（VLM）的高层认知规划器（HCP）、作为符号桥梁的服务不变可操作表示（IOR）以及通用体化代理（GEA）组成。RoBridge 维持了 VLM 的声明技能，并释放了强化学习的程序技能，有效地弥合了认知和执行之间的差距。与现有基线相比，RoBridge 在新任务上的性能显著提升，仅使用每任务五个真实世界数据样本，在模拟到现实的泛化中实现了 75% 的成功率和 83% 的平均成功率。这项工作代表了将认知推理与物理执行集成到机器人系统中的一个重要步骤，为通用机器人操作提供了一个新的范式。