摘要
arXiv:2503.21109v1 交叉发布类型: cross
摘要:深度神经网络(DNNs)在各种行业中越来越被部署,推动了移动设备支持的需求。然而,现有的移动推理框架通常依赖于每个模型一个处理器,这限制了硬件利用率,并导致性能和能效不理想。要在移动平台上扩展DNN的可访问性,需要适应性、资源高效的方法来满足不断增长的计算需求,而不牺牲功能。在异构处理器上并行执行多个DNN仍具有挑战性。一些研究工作将DNN操作划分为子图以便在处理器之间并行执行,但这通常基于硬件兼容性进行划分,导致子图数过多,增加了调度复杂性和内存开销。
为此,我们提出了一种高级多DNN模型调度(ADMS)策略,以优化在移动异构处理器上进行多DNN推理。ADMS在离线构建最优子图划分策略,平衡硬件操作支持和调度粒度,并使用一种处理器状态感知算法,根据实时条件动态调整工作负载。这确保了高效的工作负载分布并最大化处理器利用率。实验结果显示,与传统的框架相比,ADMS将多DNN推理延迟减少了4.04倍。