摘要
生成式 AI 系统在创建文本、代码和图像方面展现出令人印象深刻的能力。受工业界“装配设计”研究丰富历史的启发,我们提出一个新问题:生成式机器人装配设计 (GDfRA)。该任务是根据自然语言提示(例如,“长颈鹿”)和可用物理组件(例如 3D 打印积木)的图像生成装配。输出是一个装配,这些组件的空间排列,以及机器人构建此装配的指令。输出必须 1) 类似于请求的对象,并且 2) 可以由具有吸盘夹持器的 6 自由度机械臂可靠地组装。然后,我们介绍了 Blox-Net,一个 GDfRA 系统,它将生成式视觉语言模型与计算机视觉、仿真、扰动分析、运动规划和物理机器人实验中成熟的方法相结合,以解决一类 GDfRA 问题,而无需大量人工监督。Blox-Net 在其设计的装配的“可识别性”方面(例如,由 VLM 判断是否类似于长颈鹿)取得了 63.5% 的 Top-1 准确率。这些设计在经过自动扰动重新设计后,可以由机器人可靠地组装,在 10 次连续组装迭代中实现了近乎完美的成功率,只有在组装之前的重置过程中需要人工干预。令人惊讶的是,从文本词语(“长颈鹿”)到可靠的物理组装的整个设计过程都是无需人工干预完成的。