LLM2D

摘要

arXiv:2503.21109v1 交叉发布类型: cross 摘要：深度神经网络（DNNs）在各种行业中越来越被部署，推动了移动设备支持的需求。然而，现有的移动推理框架通常依赖于每个模型一个处理器，这限制了硬件利用率，并导致性能和能效不理想。要在移动平台上扩展DNN的可访问性，需要适应性、资源高效的方法来满足不断增长的计算需求，而不牺牲功能。在异构处理器上并行执行多个DNN仍具有挑战性。一些研究工作将DNN操作划分为子图以便在处理器之间并行执行，但这通常基于硬件兼容性进行划分，导致子图数过多，增加了调度复杂性和内存开销。为此，我们提出了一种高级多DNN模型调度（ADMS）策略，以优化在移动异构处理器上进行多DNN推理。ADMS在离线构建最优子图划分策略，平衡硬件操作支持和调度粒度，并使用一种处理器状态感知算法，根据实时条件动态调整工作负载。这确保了高效的工作负载分布并最大化处理器利用率。实验结果显示，与传统的框架相比，ADMS将多DNN推理延迟减少了4.04倍。