LLM2D
使用深度数据和图像数据进行制造零件的多模态目标检测
Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
作者: Nazanin Mahjourian, Vinh Nguyen
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2411.09062v2

摘要

arXiv:2411.09062v2 宣布类型: replace-cross 摘要:制造过程需要可靠的物体检测方法,以便精准地抓取和处理各种类型的制造零部件。传统的物体检测方法要么仅利用相机的二维图像,要么利用激光雷达或其他三维传感器的三维数据。然而,每种传感器都有其弱点和限制。相机没有深度感知能力,而三维传感器通常不携带颜色信息。这些弱点可能会削弱工业制造系统的可靠性和稳健性。为了解决这些挑战,本文提出了一种多传感器系统,结合了RGB摄像头和三维点云传感器。这两个传感器被校准以精确对齐来自两台硬件设备的多模态数据。开发了一种新颖的多模态物体检测方法,用于处理RGB和深度数据。该物体检测器基于Faster R-CNN基线,该基线最初只设计用于处理相机图像。结果显示,多模态模型在公认物体检测指标上显著优于只使用深度或RGB图像的基本模型。具体而言,与仅使用RGB图像的基本模型相比,多模态模型提高mAP 13%,提高Mean Precision 11.8%。与仅使用深度数据的基本模型相比,多模态模型提高mAP 78%,提高Mean Precision 57%。因此,该方法在智能制造应用中促进了更可靠和稳健的物体检测。