LLM2D
GrabS: 无需场景监督的生成式实体代理三维物体分割模型
GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision
作者: Zihui Zhang, Yafei Yang, Hongtao Wen, Bo Yang
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11754v1

摘要

arXiv:2504.11754v1 交叉类型:cross 摘要:我们研究了在没有3D场景的人工标签监督的情况下,3D物体分割的难题。通过依靠预训练的2D特征或其他外部信号如运动的相似性来分组3D点为物体,现有的无监督方法通常局限于识别简单的物体,如汽车,或者是由于预训练特征缺乏物体特性,分割出的物体质量往往较差。在本文中,我们提出了一种新的两阶段管道,称为GrabS。我们方法的核心理念是在第一阶段从物体数据集中学习生成性和判别性的物体中心先验,然后在第二阶段设计一个具身代理,通过查询预训练的生成性先验来学习发现多个物体。我们在两个真实世界数据集和一个新创建的合成数据集上广泛评估了我们的方法,展示了卓越的分割性能,明显超越了所有现有的无监督方法。