LLM2D

摘要

arXiv:2503.19947v1 Announce Type: cross 摘要：对广义度量深度的理解对于精确的视觉引导机器人技术至关重要，当前最先进的（SOTA）视觉编码器并不支持这一点。为了解决这一问题，我们提出了消失深度（Vanishing Depth）这一自监督训练方法，该方法将预训练的RGB编码器扩展到可以整合和对齐度量深度特征嵌入中。基于我们新颖的位置深度编码，我们实现了稳定的深度密度和深度分布不变的特征提取。我们在一系列相关的RGBD下游任务中实现了性能改进和SOTA结果，而无需对编码器进行微调。尤为显著的是，我们在SUN-RGBD分割中实现了56.05的mIoU，在Void的深度完成中实现了88.3的RMSE，在NYUv2场景分类中实现了83.8的Top 1准确率。在6D物体姿态估计中，我们超越了DinoV2、EVA-02和Omnivore的 predecessor，并在多个相关RGBD下游任务中实现了未微调编码器的SOTA结果。