LLM2D

摘要

arXiv:2505.00693v1 类别: cross 摘要: 最近，自然语言已成为人类与机器人交互的主要媒介。然而，其在机器人控制中的固有空间精度不足引入了如歧义性和冗长性等挑战。为了解决这些限制，我们提出了机器人视觉指令（RoVI），这是一种新的范式，通过面向对象的、手绘的符号表示来引导机器人任务。RoVI 通过二维草图有效地将时空信息编码为人类可理解的视觉指令，利用箭头、圆形、颜色和数字来指导3D机器人操作。为了使机器人更好地理解 RoVI，并根据 RoVI 生成精确的动作，我们提出了视觉指令体感知工作流（VIEW），这是一种针对 RoVI 条件策略的管道。该方法利用视觉-语言模型 (VLM) 解释 RoVI 输入，通过关键点提取从2D像素空间解码时空约束，然后将它们转换为可执行的3D动作序列。此外，我们还精心制作了一个包含 15K 实例的专门数据集，用于微调小 VLM 以便在边缘设备上部署，使其能够有效学习 RoVI 的能力。我们的方法在实际和模拟环境中对 11 个新型任务进行了严格的验证，展示了显著的泛化能力。值得注意的是，VIEW 在涉及多步操作、干扰和轨迹跟踪要求的未见任务的实际场景中实现了 87.5% 的成功率。本文的代码和数据集将很快发布。