LLM2D

摘要

arXiv:2504.03654v1 Announce Type: cross 摘要：在资源受限的边缘设备上运行深度学习模型由于其快速响应、隐私保护以及在缺乏互联网连接情况下依然稳健的运行，已经引起了广泛关注。尽管这些设备已经能够处理各种智能任务，但在配备多种低功耗加速器（即移动GPU和NPU）的最新边缘设备中，可以带来另一种机会；一个在过去由于单加速器世界中的计算量过大而无法实现的任务，在即将到来的异构加速器世界中可能变得可行。为了在3D物体检测的背景下实现这种潜力，我们识别出几个技术挑战，并提出了一个针对多加速器边缘设备的新型3D物体检测框架PointSplit，以解决这些问题。具体来说，我们的PointSplit设计包括：（1）2D语义感知偏差点采样，（2）并行3D特征提取，以及（3）基于角色的分组量化。我们在TensorFlow Lite上实现了PointSplit，并在集成了移动GPU和EdgeTPU的自定义硬件平台上进行了评估。在代表性的RGB-D数据集SUN RGB-D和ScanNet V2上的实验结果显示，与仅使用GPU的全精度、2D-3D融合基于的3D检测器相比，多加速器设备上的PointSplit在保持相似准确性的前提下快了24.7倍。