LLM2D

摘要

arXiv:2502.13143v1 宣布类型: cross 摘要：空间智能是体感AI的关键组成部分，促使机器人理解并与其环境互动。虽然最近的进步增强了视觉语言模型(VLMs)感知物体位置和位置关系的能力，但它们仍然缺乏精确理解物体方位的能力——这对于涉及精细操作的任务来说是关键要求。解决这一限制不仅需要几何推理，还需要一种表达和直观的方式来表示方位。在此背景下，我们认为自然语言提供了比标准框架更灵活的表示空间，使之特别适合指令跟随的机器人系统。在本文中，我们引入了语义方位的概念，这种概念以一种参考框架无关的方式使用自然语言定义物体方位（例如，USB的“插孔”方向或刀具的“把手”方向）。为了支持这一点，我们构建了OrienText300K数据集，这是一个大规模数据集，包含3D模型，并标注有语义方位，将几何理解与功能性语义联系起来。通过将语义方位整合到视觉语言模型系统中，我们使机器人能够生成同时具有位置和方位约束的抓取动作。在仿真和现实世界中的广泛实验表明，我们的方法显著增强了机器人的操作能力，例如，在Open6DOR上的准确性为48.7%，在SIMPLER上的准确性为74.9%。