摘要
arXiv:2408.10652v2 宣告类型: replace-cross
摘要:大多数最近的3D实例分割方法是开放式词汇的,提供了比封闭词汇方法更大的灵活性。然而,它们在测试时仍受限于用户提示的特定概念集,即词汇,进行推理。本质上,这些模型不能以开放的方式进行推理,即回答"列出场景中的物体"。我们引入了第一个能够在无任何先验词汇设定下进行3D实例分割的方法,即无词汇设定。我们利用一个大的视觉-语言助手和开放式词汇的2D实例分割器,在提出的图像上发现和定位语义类别。为了形成3D实例遮罩,我们首先将输入点云划分为密集的超级点,然后将它们合并成3D实例遮罩。我们提出了一种新的基于谱聚类的超级点合并策略,同时考虑来自2D物体实例遮罩的遮罩连贯性和语义连贯性。我们使用ScanNet200和Replica进行方法评估,在无词汇和开放式词汇设定下均优于现有方法。代码将公开。项目页面:https://gfmei.github.io/PoVo