摘要
arXiv:2502.11777v1 宣布类型: cross
摘要:深度估计在推进人机交互中扮演着至关重要角色,尤其是在室内环境中,准确的三维场景重建对于导航和物体处理任务至关重要。单目深度估计依赖单一的RGB摄像头,相比传统使用立体相机或LiDAR的方法,提供了更经济的解决方案。然而,尽管最近取得了进展,许多单目方法在准确界定深度边界时仍存在问题,导致重建不够精准。为应对这些挑战,这项研究提出了一种新的深度估计框架,该框架利用深度卷积神经网络中的潜在空间特征,以增强单目深度图的精度。所提出的模型采用双编码器-解码器架构,能够实现颜色到深度和深度到深度的转换。这种结构通过潜在空间编码,允许细化的深度估计。为了进一步提高深度边界和局部特征的准确性,还引入了一种新的损失函数。该函数将潜在损失与梯度损失结合起来,帮助模型保持深度边界的完整性。该框架在NYU Depth V2数据集上进行了彻底测试,其中它建立了新的基准,特别是在复杂室内场景中表现出色。结果表明,该方法有效减少了深度歧义和模糊,使其成为人在机器人交互和三维场景重建应用中的 promising 解决方案。