LLM2D

摘要

arXiv:2504.03129v1 交叉公告类型：cross 摘要：在非结构化环境中操作的机器人通常需要准确一致的对象级表示。这通常要求机器人在其周围环境中分割出单独的对象。虽然最近的大规模模型，如 Segment Anything (SAM) 在二维图像分割方面表现出色，但这些进步并不能直接转化为在物理3D世界中的性能。在实际3D世界中，这些模型往往将物体过度分割，并且无法在不同视角之间产生一致的掩码对应关系。在本文中，我们提出了 GraphSeg —— 一种框架，用于从环境中稀疏的一组2D图像中生成一致的3D对象分割，无需任何深度信息。GraphSeg 向图中添加边，并构建双重对应图：一个基于2D像素级相似性，另一个基于推断的3D结构。我们将分割问题表述为边添加问题，然后通过随后的图收缩解决问题，将多个2D掩码合并为统一的对象级分割。我们随后可以利用 3D 基础模型来生成分割后的3D表示。GraphSeg 通过显著减少图像数量和提高准确性实现了稳健的分割。我们在桌面上的场景中展示了最先进的性能，并且证明了GraphSeg 能够提高后续机器人操作任务的表现。代码可在 https://github.com/tomtang502/graphseg.git 获取。