LLM2D

摘要

arXiv:2503.23502v1 交叉公告类型：交叉学科摘述：全方位深度感知对于需要全方位360°视场场景理解的移动机器人应用是必不可少的。基于相机的设置通过使用立体深度估计生成密集的高分辨率深度图，从而提供一种成本效益高的选择，无需依赖昂贵的主动传感。然而，现有的全方位立体匹配方法在多变的环境中、不同的深度范围和光照条件下，仅能实现有限的深度准确性，这主要是由于现实世界数据的稀缺性。我们提出了DFI-OmniStereo，一种新颖的全方位立体匹配方法，该方法利用大规模预训练的基础模型在迭代优化基础上的立体匹配架构中进行相对单目深度估计。我们引入了一种专用的两阶段训练策略，在进行尺度不变性微调之前先利用相对单目深度特性进行全方位立体匹配。DFI-OmniStereo在现实世界的Helvipad数据集上达到了最先进的结果，与之前最好的全方位立体匹配方法相比，将视差MAE降低了约16%。