LLM2D

摘要

arXiv:2502.10090v1 介绍类型: cross 摘要：人类拥有理解并执行复杂操作任务的非凡能力，通过解释抽象的指令手册。然而，对于机器人来说，这一能力仍是一个重大的挑战，因为他们无法解释抽象指令并将其转化为可执行的动作。在本文中，我们提出了Manual2Skill，这是一个新的框架，使机器人能够在高级手工指令的指导下执行复杂的装配任务。我们的方法利用视觉语言模型（VLM）从指令图像中提取结构化信息，然后利用这些信息构建分层装配图形。这些图形表示部件、子装配件及其之间的关系。为了促进任务执行，姿态估计模型在每个装配步骤中预测组件的相对6D姿态。同时，运动规划模块生成实际机器人实施的动作序列。我们通过成功组装几个真实的宜家家具件来展示了Manual2Skill的有效性。这一应用突显了其在高效和精准管理长期操作任务方面的潜力，极大地提高了机器人从指令手册学习的实际可行性。这项工作标志着在使机器人系统能够理解和执行类似于人类能力的复杂操作任务方面取得了进展。