摘要
arXiv:2502.13143v1 宣布类型: cross
摘要:空间智能是体感AI的关键组成部分,促使机器人理解并与其环境互动。虽然最近的进步增强了视觉语言模型(VLMs)感知物体位置和位置关系的能力,但它们仍然缺乏精确理解物体方位的能力——这对于涉及精细操作的任务来说是关键要求。解决这一限制不仅需要几何推理,还需要一种表达和直观的方式来表示方位。在此背景下,我们认为自然语言提供了比标准框架更灵活的表示空间,使之特别适合指令跟随的机器人系统。在本文中,我们引入了语义方位的概念,这种概念以一种参考框架无关的方式使用自然语言定义物体方位(例如,USB的“插孔”方向或刀具的“把手”方向)。为了支持这一点,我们构建了OrienText300K数据集,这是一个大规模数据集,包含3D模型,并标注有语义方位,将几何理解与功能性语义联系起来。通过将语义方位整合到视觉语言模型系统中,我们使机器人能够生成同时具有位置和方位约束的抓取动作。在仿真和现实世界中的广泛实验表明,我们的方法显著增强了机器人的操作能力,例如,在Open6DOR上的准确性为48.7%,在SIMPLER上的准确性为74.9%。