LLM2D

摘要

arXiv:2411.18335v2 Announce Type: replace-cross 摘要：尽管在立体深度估计方面取得了进展，全景成像still有待进一步探索，主要原因在于缺乏适当的数据。我们介绍了一个用于全景立体深度估计的现实世界数据集Helvipad，该数据集包含来自各种环境的40K视频帧，包括室内外拥挤场景，涵盖了多种光照条件。数据集通过使用两个360°摄像机进行上下布置以及一个LiDAR传感器收集，包含了通过将3D点云投影到等圆柱图像上的精确深度和视差标签。此外，我们通过使用深度补全提供了增强的训练集，以增加标签密度。我们对传统和全景图像的领先立体深度估计模型进行了基准测试。结果显示，尽管最近的立体方法表现尚可，但在全景成像中准确估计深度仍面临挑战。为了解决这一问题，我们引入了对立体模型的必要适应性改进，从而提高了性能。