LLM2D

摘要

在 TinyML 领域，将深度神经网络 (DNN) 部署到异构边缘平台，并将指令处理器和硬件加速器耦合到同一微控制器单元 (MCU) 中，成为一项至关重要的挑战。性能最佳的 DNN 编译工具链通常针对单个 MCU 系列深度定制，移植到不同的异构 MCU 系列意味着几乎整个编译器的劳动密集型重新开发。另一方面，可重定向工具链（如 TVM）无法利用定制加速器的功能，导致生成通用但未优化的代码。为了克服这种二元性，我们引入了 MATCH，这是一种基于 TVM 的新型 DNN 部署框架，它专为跨不同 MCU 处理器和加速器的轻松敏捷重定向而设计，这得益于可定制的基于模型的硬件抽象。我们表明，一个通用的可重定向映射框架，通过硬件成本模型增强，可以在各种目标上与定制工具链竞争，甚至优于定制工具链，而只需要定义一个抽象硬件模型和一个 SoC 特定的 API。我们在两个最先进的异构 MCU，GAP9 和 DIANA 上测试了 MATCH。在 MLPerf Tiny 套件的四个 DNN 模型上，MATCH 将 DIANA 上的推理延迟降低了高达 60.88 倍，这得益于对板载 HW 加速器的利用。与 DIANA 的完全定制工具链 HTVM 相比，我们仍然将延迟降低了 16.94%。在 GAP9 上，使用相同的基准，与专用 DORY 编译器相比，我们通过 2.15 倍提高了延迟，这得益于我们的异构 DNN 映射方法，它协同利用了 DNN 加速器和板载的八核集群。