摘要
arXiv:2503.19947v1 Announce Type: cross
摘要:对广义度量深度的理解对于精确的视觉引导机器人技术至关重要,当前最先进的(SOTA)视觉编码器并不支持这一点。为了解决这一问题,我们提出了消失深度(Vanishing Depth)这一自监督训练方法,该方法将预训练的RGB编码器扩展到可以整合和对齐度量深度特征嵌入中。基于我们新颖的位置深度编码,我们实现了稳定的深度密度和深度分布不变的特征提取。我们在一系列相关的RGBD下游任务中实现了性能改进和SOTA结果,而无需对编码器进行微调。尤为显著的是,我们在SUN-RGBD分割中实现了56.05的mIoU,在Void的深度完成中实现了88.3的RMSE,在NYUv2场景分类中实现了83.8的Top 1准确率。在6D物体姿态估计中,我们超越了DinoV2、EVA-02和Omnivore的 predecessor,并在多个相关RGBD下游任务中实现了未微调编码器的SOTA结果。