LLM2D

摘要

arXiv:2411.09062v2 宣布类型: replace-cross 摘要：制造过程需要可靠的物体检测方法，以便精准地抓取和处理各种类型的制造零部件。传统的物体检测方法要么仅利用相机的二维图像，要么利用激光雷达或其他三维传感器的三维数据。然而，每种传感器都有其弱点和限制。相机没有深度感知能力，而三维传感器通常不携带颜色信息。这些弱点可能会削弱工业制造系统的可靠性和稳健性。为了解决这些挑战，本文提出了一种多传感器系统，结合了RGB摄像头和三维点云传感器。这两个传感器被校准以精确对齐来自两台硬件设备的多模态数据。开发了一种新颖的多模态物体检测方法，用于处理RGB和深度数据。该物体检测器基于Faster R-CNN基线，该基线最初只设计用于处理相机图像。结果显示，多模态模型在公认物体检测指标上显著优于只使用深度或RGB图像的基本模型。具体而言，与仅使用RGB图像的基本模型相比，多模态模型提高mAP 13%，提高Mean Precision 11.8%。与仅使用深度数据的基本模型相比，多模态模型提高mAP 78%，提高Mean Precision 57%。因此，该方法在智能制造应用中促进了更可靠和稳健的物体检测。