摘要
6D 物体姿态估计旨在从单个 RGBD 图像中确定物体的平移、旋转和尺度。近年来,这项估计已经从实例级扩展到类别级,使模型能够在同一类别中跨越未见实例进行泛化。然而,这种泛化受到现有数据集(例如 NOCS)所涵盖的类别范围狭窄的限制,这些数据集也往往忽略了现实世界中的常见挑战,例如遮挡。为了应对这些挑战,我们引入了 Omni6D,这是一个包含广泛类别和不同背景的综合 RGBD 数据集,将任务提升到更现实的场景中。1) 该数据集包含 166 个类别的广泛范围,4688 个调整到规范姿势的实例,以及超过 80 万张捕捉图像,显著扩展了评估范围。2) 我们引入了对称感知度量,并对 Omni6D 上现有算法进行了系统基准测试,深入探讨了新挑战和见解。3) 此外,我们提出了一种有效的微调方法,该方法将模型从以前的数据集适应到我们广泛的词汇设置。我们相信这项举措将为工业界和学术界带来新的见解和重大进展,推动通用 6D 姿态估计的边界。