摘要
arXiv:2504.03654v1 Announce Type: cross
摘要:在资源受限的边缘设备上运行深度学习模型由于其快速响应、隐私保护以及在缺乏互联网连接情况下依然稳健的运行,已经引起了广泛关注。尽管这些设备已经能够处理各种智能任务,但在配备多种低功耗加速器(即移动GPU和NPU)的最新边缘设备中,可以带来另一种机会;一个在过去由于单加速器世界中的计算量过大而无法实现的任务,在即将到来的异构加速器世界中可能变得可行。为了在3D物体检测的背景下实现这种潜力,我们识别出几个技术挑战,并提出了一个针对多加速器边缘设备的新型3D物体检测框架PointSplit,以解决这些问题。具体来说,我们的PointSplit设计包括:(1)2D语义感知偏差点采样,(2)并行3D特征提取,以及(3)基于角色的分组量化。我们在TensorFlow Lite上实现了PointSplit,并在集成了移动GPU和EdgeTPU的自定义硬件平台上进行了评估。在代表性的RGB-D数据集SUN RGB-D和ScanNet V2上的实验结果显示,与仅使用GPU的全精度、2D-3D融合基于的3D检测器相比,多加速器设备上的PointSplit在保持相似准确性的前提下快了24.7倍。