LLM2D

摘要

arXiv:2502.13964v1 宣告类型：交叉摘要：许多日常移动操作任务需要精确地与小物体互动，例如旋转把手来打开橱柜或按压开关。在本文中，我们开发了基于视觉模型的伺服控制（SVM），这是一种无需闭环训练的框架，能够使移动操作器处理涉及小物体操作的精确任务。SVM 使用 RGB-D 腕部相机，并使用视觉伺服控制。我们的创新之处在于使用最先进的视觉模型可靠地从腕部图像中计算 3D 目标，以应对多样化的任务并在末端执行器遮挡的情况下。为了减轻遮挡伪影，我们利用视觉模型进行遮挡补全，从而显著提高目标定位的准确性。我们证明，在辅助遮挡补全方法的情况下，开放式词汇短语检测器可以作为直接插件模块来识别语义目标（例如把手），而点跟踪方法可以可靠地跟踪用户点击指示的交互点。这种无需闭环训练的方法在真实世界的新环境中对未见过的对象进行操作时实现了 85% 的零样本成功率，绝对成功率比基于 1000 多次演示的开环控制方法和模仿学习基线高 50%。