LLM2D

摘要

我们研究了新兴的芯粒式神经处理单元在加速受限汽车环境中车载 AI 感知工作负载方面的应用。我们的研究动机源于芯粒技术正日益成为新兴车载架构的组成部分，它在性能、模块化和定制化之间提供了具有成本效益的平衡；以及感知模型是自动驾驶系统中最计算密集型的工作负载。以特斯拉Autopilot感知流水线为例，我们首先分解其组成模型，并在不同的芯粒加速器上分析其性能。基于这些见解，我们提出了一种新颖的调度策略，以高效地在多芯片 AI 加速器上部署感知工作负载。我们使用标准 DNN 性能模拟器 MAESTRO 进行的实验表明，与单片加速器设计相比，我们的方法实现了 82% 的吞吐量提升和 2.8 倍的处理引擎利用率提升。