LLM2D

摘要

空间理解是机器人根据环境做出有效决策的关键能力。这项基础技能使机器人不仅能够感知周围环境，还能对环境进行推理并进行有意义的交互。在现代机器人技术中，这些能力由视觉语言模型承担，但在应用于空间推理环境时，它们面临着巨大的挑战，因为其训练数据来源存在局限性。这些来源利用通用图像数据集，往往缺乏复杂的空间场景理解能力。例如，这些数据集没有解决参考系理解的问题——空间关系需要清晰的上下文理解，无论是以自我为中心、以物体为中心还是以世界为中心，这才能实现有效的现实世界交互。为了解决这个问题，我们引入了RoboSpatial，这是一个大型空间理解数据集，包含作为3D扫描和以自我为中心的图像捕获的真实室内和桌面场景，并标注了与机器人相关的丰富空间信息。该数据集包含100万张图像、5000次3D扫描和300万个标注的空间关系，并配对2D以自我为中心的图像和3D扫描，使其既适用于2D也适用于3D。我们的实验表明，使用RoboSpatial训练的模型在空间可供性预测、空间关系预测和机器人操作等下游任务上优于基线模型。