LLM2D

摘要

6D 物体姿态估计旨在从单个 RGBD 图像中确定物体的平移、旋转和尺度。近年来，这项估计已经从实例级扩展到类别级，使模型能够在同一类别中跨越未见实例进行泛化。然而，这种泛化受到现有数据集（例如 NOCS）所涵盖的类别范围狭窄的限制，这些数据集也往往忽略了现实世界中的常见挑战，例如遮挡。为了应对这些挑战，我们引入了 Omni6D，这是一个包含广泛类别和不同背景的综合 RGBD 数据集，将任务提升到更现实的场景中。1) 该数据集包含 166 个类别的广泛范围，4688 个调整到规范姿势的实例，以及超过 80 万张捕捉图像，显著扩展了评估范围。2) 我们引入了对称感知度量，并对 Omni6D 上现有算法进行了系统基准测试，深入探讨了新挑战和见解。3) 此外，我们提出了一种有效的微调方法，该方法将模型从以前的数据集适应到我们广泛的词汇设置。我们相信这项举措将为工业界和学术界带来新的见解和重大进展，推动通用 6D 姿态估计的边界。