LLM2D
基于多模态基础模型的体态行动链推理在类人搬运操作中的应用
Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation
作者: Yu Hao, Geeta Chandra Raju Bethala, Niraj Pudasaini, Hao Huang, Shuaihang Yuan, Congcong Wen, Baoru Huang, Anh Nguyen, Yi Fang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09532v1

摘要

arXiv:2504.09532v1 Announce Type: cross 摘要:使类人机器人能够在复杂、非结构化的环境中自主执行移动操作任务提出了重大挑战。这要求机器人具备规划长时间跨度动作的能力,并借助多模态方式弥合高层次规划与实际任务执行之间的差距。近期在多模态基础模型方面的进展展示了在增强规划和推理能力方面的巨大潜力,尤其是在理解和处理用于机器人控制任务的语义信息方面。在本文中,我们提出了一种基于基础模型的新型框架,该框架将基于体 装嵌系列动作推理的方法应用于从文本指令自主规划类人移动操作任务中的动作。我们的方法整合了类人特有的系列思考方法,包括详细的功能分析和身体动作分析,这将任务分解为一系列移动和操作动作。此外,我们还结合基于观察和目标物体特性的空间推理,以有效地导航目标位置可能未见或被遮挡的情况。通过在真实环境中进行物体重新排列、操作和移动操作任务的严格实验设置,我们评估了我们方法在上下半身控制解耦方面的效果,并展示了机器人动作推理策略在理解人类指令方面的有效性。