摘要
我们研究了新兴的芯粒式神经处理单元在加速受限汽车环境中车载 AI 感知工作负载方面的应用。我们的研究动机源于芯粒技术正日益成为新兴车载架构的组成部分,它在性能、模块化和定制化之间提供了具有成本效益的平衡;以及感知模型是自动驾驶系统中最计算密集型的工作负载。以特斯拉Autopilot感知流水线为例,我们首先分解其组成模型,并在不同的芯粒加速器上分析其性能。基于这些见解,我们提出了一种新颖的调度策略,以高效地在多芯片 AI 加速器上部署感知工作负载。我们使用标准 DNN 性能模拟器 MAESTRO 进行的实验表明,与单片加速器设计相比,我们的方法实现了 82% 的吞吐量提升和 2.8 倍的处理引擎利用率提升。