LLM2D

摘要

arXiv:2504.18684v1 类型: cross 摘要：在人类旁边操作的机器人理解和解释指称物体的语言并在三维空间中通过空间关系和属性对物体进行定位是至关重要的。但是，由于场景的多样性、精细物体数量庞大以及语言引用的复杂自由形式，这个任务往往具有挑战性。此外，在三维领域，获取大量的自然语言训练数据是困难的。因此，对于方法来说，在少量数据的情况下进行学习并在新的环境中进行无监督泛化是非常重要的。为了解决这些挑战，我们提出了SORT3D，一种方法，该方法利用了2D数据中的丰富物体属性，并将基于启发式的空间推理工具箱与大型语言模型（LLMs）进行顺序推理的能力结合在一起。重要的是，我们的方法在训练过程中不需要文本到三维数据，并且可以无监督地应用于未见过的环境中。我们展示了SORT3D在两个基准测试上的复杂视点依赖性定位任务中达到了最先进的性能。我们还实现了流水线以实现实时运行在自主车辆上，并表明我们的方法可以用于未见过的实际环境中的物体目标导航。该系统的流水线的所有源代码在https://github.com/nzantout/SORT3D 公开发布。