LLM2D

摘要

arXiv:2502.11777v1 宣布类型: cross 摘要：深度估计在推进人机交互中扮演着至关重要角色，尤其是在室内环境中，准确的三维场景重建对于导航和物体处理任务至关重要。单目深度估计依赖单一的RGB摄像头，相比传统使用立体相机或LiDAR的方法，提供了更经济的解决方案。然而，尽管最近取得了进展，许多单目方法在准确界定深度边界时仍存在问题，导致重建不够精准。为应对这些挑战，这项研究提出了一种新的深度估计框架，该框架利用深度卷积神经网络中的潜在空间特征，以增强单目深度图的精度。所提出的模型采用双编码器-解码器架构，能够实现颜色到深度和深度到深度的转换。这种结构通过潜在空间编码，允许细化的深度估计。为了进一步提高深度边界和局部特征的准确性，还引入了一种新的损失函数。该函数将潜在损失与梯度损失结合起来，帮助模型保持深度边界的完整性。该框架在NYU Depth V2数据集上进行了彻底测试，其中它建立了新的基准，特别是在复杂室内场景中表现出色。结果表明，该方法有效减少了深度歧义和模糊，使其成为人在机器人交互和三维场景重建应用中的 promising 解决方案。