LLM2D

摘要

生成式 AI 系统在创建文本、代码和图像方面展现出令人印象深刻的能力。受工业界“装配设计”研究丰富历史的启发，我们提出一个新问题：生成式机器人装配设计 (GDfRA)。该任务是根据自然语言提示（例如，“长颈鹿”）和可用物理组件（例如 3D 打印积木）的图像生成装配。输出是一个装配，这些组件的空间排列，以及机器人构建此装配的指令。输出必须 1) 类似于请求的对象，并且 2) 可以由具有吸盘夹持器的 6 自由度机械臂可靠地组装。然后，我们介绍了 Blox-Net，一个 GDfRA 系统，它将生成式视觉语言模型与计算机视觉、仿真、扰动分析、运动规划和物理机器人实验中成熟的方法相结合，以解决一类 GDfRA 问题，而无需大量人工监督。Blox-Net 在其设计的装配的“可识别性”方面（例如，由 VLM 判断是否类似于长颈鹿）取得了 63.5% 的 Top-1 准确率。这些设计在经过自动扰动重新设计后，可以由机器人可靠地组装，在 10 次连续组装迭代中实现了近乎完美的成功率，只有在组装之前的重置过程中需要人工干预。令人惊讶的是，从文本词语（“长颈鹿”）到可靠的物理组装的整个设计过程都是无需人工干预完成的。