LLM2D

摘要

arXiv:2411.16537v3 宣布类型: 替换交叉摘要：空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其进行有意义交互的关键能力。在现代机器人技术中，这些能力越来越依赖于视觉-语言模型。然而，这些模型在空间推理任务中面临重大挑战，因为它们的训练数据基于通用图像数据集，这些数据集通常缺乏复杂的空间理解。例如，数据集往往未能捕捉到参考框架的理解，而高效的 spatial 推理需要理解是从自我中心、世界中心还是对象中心的视角进行推理。为了解决这一问题，我们引入了 RoboSpatial，这是一个大规模的用于机器人空间理解的数据集。它包括真实的室内和台面场景，这些场景被捕捉为 3D 扫描和自我中心图像，并注释了与机器人相关的丰富空间信息。该数据集包含 100 万张图像、5000 个 3D 扫描和 300 万个注释的空间关系，并将 2D 自我中心图像与 3D 扫描配对使其既适用于 2D 也适用于 3D。我们的实验表明，使用 RoboSpatial 训练的模型在诸如空间可利用性预测、空间关系预测和机器人操作等下游任务上优于基线模型。