LLM2D
SGFormer:用于360°深度估计的球面几何Transformer
SGFormer: Spherical Geometry Transformer for 360 Depth Estimation
作者: Junsong Zhang, Zisong Chen, Chunyu Lin, Lang Nie, Zhijie Shen, Kang Liao, Yao Zhao
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2404.14979v2

摘要

全景畸变对360度深度估计提出了重大挑战,尤其在南北极尤为明显。现有方法要么采用双投影融合策略去除畸变,要么建模长程依赖关系以捕捉全局结构,这可能导致结构模糊或局部感知不足。本文提出了一种球面几何变换器SGFormer来解决上述问题,创新性地将球面几何先验知识融入视觉变换器。为此,我们将变换器解码器重新定位到球面先验解码器(称为SPDecoder),该解码器力求在解码过程中保持球面结构的完整性。具体来说,我们利用双极重投影、圆形旋转和曲线局部嵌入分别保持等畸变、连续性和表面距离的球面特性。此外,我们提出了一种基于查询的全局条件位置嵌入,以补偿不同分辨率下的空间结构。它不仅增强了空间位置的全局感知,而且还锐化了不同块之间的深度结构。最后,我们在流行的基准测试中进行了大量的实验,证明了我们优于最先进的解决方案。