LLM2D

摘要

6D 物体姿态估计旨在确定物体的平移、旋转和尺度，通常从单张 RGBD 图像中进行。最近的进展已将这种估计从实例级扩展到类别级，允许模型在同一类别中跨未见实例进行泛化。然而，这种泛化受到现有数据集（如 NOCS）所涵盖的类别范围狭窄的限制，这些数据集也往往忽略了遮挡等常见的现实世界挑战。为了应对这些挑战，我们引入了 Omni6D，这是一个包含广泛类别和不同背景的综合 RGBD 数据集，将任务提升到更现实的背景下。1) 该数据集包含 166 个类别的广泛范围，4688 个调整到规范姿势的实例，以及超过 80 万次捕获，极大地扩展了评估范围。2) 我们引入了对称感知度量，并对 Omni6D 上现有算法进行了系统基准测试，对新挑战和见解进行了深入探讨。3) 此外，我们提出了一种有效的微调方法，将模型从以前的数据集适应到我们广泛的词汇设置中。我们相信，这项举措将为工业和学术领域的新见解和实质性进展铺平道路，推动通用 6D 姿态估计的边界。