摘要
大多数现有的从图像焦堆栈进行深度估计的方法都采用卷积神经网络 (CNN),在固定图像集上使用二维或三维卷积。然而,其有效性受到 CNN 核的局部属性的限制,这限制了它们在训练和推理过程中只能处理固定数量图像的焦堆栈。这种限制阻碍了它们泛化到任意长度堆栈的能力。为了克服这些限制,我们提出了一种新颖的基于 Transformer 的网络 FocDepthFormer,它集成了 Transformer、LSTM 模块和 CNN 解码器。Transformer 的自注意力机制允许通过隐式执行非局部交叉引用来学习更具信息量的空间特征。LSTM 模块旨在整合不同长度图像堆栈的表示。此外,我们在早期编码器中采用多尺度卷积核来捕获不同聚焦/散焦程度的低级特征。通过结合 LSTM,FocDepthFormer 可以在大规模单目 RGB 深度估计数据集上进行预训练,从而改进视觉模式学习并减少对难以获得的焦堆栈数据的依赖。在各种焦堆栈基准数据集上的大量实验表明,我们的模型在多个评估指标上都优于最先进的方法。