LLM2D

摘要

arXiv:2504.14588v1 类型: cross 摘要: 为机器人从故障中恢复建立一个可推广的自我纠正系统是至关重要的。尽管在多模态大型语言模型(MLLMs)方面取得了进展，这些模型赋予了机器人语义反思能力以应对故障，但将语义反思转化为如何修正细粒度的机器人动作仍然是一个重大挑战。为了解决这一缺口，我们构建了Phoenix框架，该框架利用运动指令作为桥梁，将高层语义反思与低层机器人动作修正连接起来。在这种基于运动的自我反思框架中，我们首先通过MLLMs引入了一种双过程运动调整机制，将语义反思转化为粗粒度的运动指令调整。为了利用这种运动指令来指导如何修正细粒度的机器人动作，我们提出了一种多任务运动条件扩散策略，将其与视觉观察相结合，以实现高频率的机器人动作修正。通过将这两个模型结合起来，我们可以将对低层操作策略的泛化能力需求转移到由MLLMs驱动的运动调整模型上，并促进精确的细粒度机器人动作修正。利用此框架，我们进一步开发了一种终身学习方法，以自动提高模型能力，从动态环境中的交互体验中提升。在RoboMimic模拟和真实世界场景中的实验证明了我们的框架在各种操作任务中具有出色的泛化能力和鲁棒性。我们的代码可以在 \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework} 获取。