LLM2D

摘要

arXiv:2408.10652v2 宣告类型: replace-cross 摘要：大多数最近的3D实例分割方法是开放式词汇的，提供了比封闭词汇方法更大的灵活性。然而，它们在测试时仍受限于用户提示的特定概念集，即词汇，进行推理。本质上，这些模型不能以开放的方式进行推理，即回答"列出场景中的物体"。我们引入了第一个能够在无任何先验词汇设定下进行3D实例分割的方法，即无词汇设定。我们利用一个大的视觉-语言助手和开放式词汇的2D实例分割器，在提出的图像上发现和定位语义类别。为了形成3D实例遮罩，我们首先将输入点云划分为密集的超级点，然后将它们合并成3D实例遮罩。我们提出了一种新的基于谱聚类的超级点合并策略，同时考虑来自2D物体实例遮罩的遮罩连贯性和语义连贯性。我们使用ScanNet200和Replica进行方法评估，在无词汇和开放式词汇设定下均优于现有方法。代码将公开。项目页面：https://gfmei.github.io/PoVo