摘要
arXiv:2504.03129v1
交叉公告类型:cross
摘要:在非结构化环境中操作的机器人通常需要准确一致的对象级表示。这通常要求机器人在其周围环境中分割出单独的对象。虽然最近的大规模模型,如 Segment Anything (SAM) 在二维图像分割方面表现出色,但这些进步并不能直接转化为在物理3D世界中的性能。在实际3D世界中,这些模型往往将物体过度分割,并且无法在不同视角之间产生一致的掩码对应关系。在本文中,我们提出了 GraphSeg —— 一种框架,用于从环境中稀疏的一组2D图像中生成一致的3D对象分割,无需任何深度信息。GraphSeg 向图中添加边,并构建双重对应图:一个基于2D像素级相似性,另一个基于推断的3D结构。我们将分割问题表述为边添加问题,然后通过随后的图收缩解决问题,将多个2D掩码合并为统一的对象级分割。我们随后可以利用 3D 基础模型来生成分割后的3D表示。GraphSeg 通过显著减少图像数量和提高准确性实现了稳健的分割。我们在桌面上的场景中展示了最先进的性能,并且证明了GraphSeg 能够提高后续机器人操作任务的表现。代码可在 https://github.com/tomtang502/graphseg.git 获取。