摘要
在 TinyML 领域,将深度神经网络 (DNN) 部署到异构边缘平台,并将指令处理器和硬件加速器耦合到同一微控制器单元 (MCU) 中,成为一项至关重要的挑战。
性能最佳的 DNN 编译工具链通常针对单个 MCU 系列深度定制,移植到不同的异构 MCU 系列意味着几乎整个编译器的劳动密集型重新开发。另一方面,可重定向工具链(如 TVM)无法利用定制加速器的功能,导致生成通用但未优化的代码。为了克服这种二元性,我们引入了 MATCH,这是一种基于 TVM 的新型 DNN 部署框架,它专为跨不同 MCU 处理器和加速器的轻松敏捷重定向而设计,这得益于可定制的基于模型的硬件抽象。
我们表明,一个通用的可重定向映射框架,通过硬件成本模型增强,可以在各种目标上与定制工具链竞争,甚至优于定制工具链,而只需要定义一个抽象硬件模型和一个 SoC 特定的 API。
我们在两个最先进的异构 MCU,GAP9 和 DIANA 上测试了 MATCH。
在 MLPerf Tiny 套件的四个 DNN 模型上,MATCH 将 DIANA 上的推理延迟降低了高达 60.88 倍,这得益于对板载 HW 加速器的利用。与 DIANA 的完全定制工具链 HTVM 相比,我们仍然将延迟降低了 16.94%。在 GAP9 上,使用相同的基准,与专用 DORY 编译器相比,我们通过 2.15 倍提高了延迟,这得益于我们的异构 DNN 映射方法,它协同利用了 DNN 加速器和板载的八核集群。