LLM2D

摘要

对象在相机视野中移动时会经历不同程度的透视扭曲。从单张图像预测3D的模型通常处理围绕感兴趣对象的裁剪区域，而忽略对象在相机视野中的位置。我们注意到，忽略位置信息会进一步加剧从2D图像进行3D推断的固有模糊性，甚至可能导致模型无法适应训练数据。为了减轻这一模糊性，我们提出了内在参数感知位置编码（KPE），该方法结合了图像中裁剪区域的位置和相机内在参数的信息。在三个流行的单张图像3D预测基准测试上进行的实验：NYU的深度预测、KITTI和nuScenes上的3D对象检测、以及ARCTIC上关节对象的3D形状预测，显示了KPE的优势。