摘要
基础模型的出现彻底改变了各个领域,在计算语言学、计算机视觉等领域实现了前所未有的任务精度和灵活性。注意力机制因其捕获序列相关性的卓越能力而成为基础模型的重要组成部分。然而,随着上下文长度的增长,注意力机制会导致内存和计算的二次复杂度。尽管许多基于融合的精确注意力加速算法已针对利用多核并行性和数据局部性的数据中心级GPU和加速器而开发,但在计算单元有限且片上缓存严格的资源受限边缘神经加速器上加速注意力仍然是一个重大挑战。本文提出了一种在内存受限边缘加速器上进行精确注意力推理加速的方案,该方案通过并行利用异构计算单元(即矢量处理单元和矩阵处理单元)来实现。我们的方法包括在一个多层平铺方案中将工作负载调度到这些不同的计算单元上,以处理注意力中平铺的矢量工作负载和矩阵工作负载作为两个流,同时尊重工作负载依赖关系。我们搜索平铺因子以最大限度地提高两个计算单元的并行化,同时考虑I/O开销,并提出了一种主动缓存覆盖策略以避免实际中不必要的缓存溢出。基于开源模拟框架的大量结果表明,与边缘计算场景中最新的注意力融合方法(FLAT)相比,速度提高了高达2.75倍,能耗降低了54%。在真实世界边缘神经处理单元上的进一步实验表明,与FLAT相比,注意力的速度提高了高达1.76倍,而不会影响模型输出精度。