LLM2D
无需词汇的3D实例分割 dengan 视觉与语言辅助
Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant
作者: Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2408.10652v2

摘要

arXiv:2408.10652v2 宣告类型: replace-cross 摘要:大多数最近的3D实例分割方法是开放式词汇的,提供了比封闭词汇方法更大的灵活性。然而,它们在测试时仍受限于用户提示的特定概念集,即词汇,进行推理。本质上,这些模型不能以开放的方式进行推理,即回答"列出场景中的物体"。我们引入了第一个能够在无任何先验词汇设定下进行3D实例分割的方法,即无词汇设定。我们利用一个大的视觉-语言助手和开放式词汇的2D实例分割器,在提出的图像上发现和定位语义类别。为了形成3D实例遮罩,我们首先将输入点云划分为密集的超级点,然后将它们合并成3D实例遮罩。我们提出了一种新的基于谱聚类的超级点合并策略,同时考虑来自2D物体实例遮罩的遮罩连贯性和语义连贯性。我们使用ScanNet200和Replica进行方法评估,在无词汇和开放式词汇设定下均优于现有方法。代码将公开。项目页面:https://gfmei.github.io/PoVo