摘要
arXiv:2505.06625v1 平台类型: 交叉
摘要:随着DNN应用的快速发展,多租户执行成为一种主流趋势,即多个DNN共驻在一个单片SoC上。尽管在前期工作中提出了许多方法来提高多租户性能,但共享缓存的影响尚未得到充分研究。本文提出了一种名为CaMDN的架构-调度协同设计,以增强在集成NPUs上运行的多租户DNN的缓存效率。具体而言,提出了一种轻量级架构,支持共享缓存内的模型专属、NPU控制区域,以消除意外的缓存争用。此外,提出了一种缓存调度方法来提高共享缓存的利用率。特别是,它包括一种缓存感知映射方法,以适应变化的可用缓存容量,并提出了一种动态分配算法,在运行时调整共驻DNN之间的使用情况。与前期工作相比,CaMDN平均减少33.4%的内存访问,最高实现2.56倍(平均1.88倍)的模型加速。