LLM2D

摘要

移动系统需要支持多个基于人工智能的应用程序，每个应用程序都通过协同执行的网络中的DNN架构利用异构数据源。为了在对延迟、质量和（至关重要）推理过程的可靠性有要求的情况下最小化人工智能推理任务的成本，优化 (i) 传感器/数据源集合，(ii) DNN 架构，(iii) 执行 DNN 部分的网络节点以及 (iv) 要使用的资源至关重要。为此，我们利用具有分支的动态门控神经网络，并提出了一种名为分位数约束推理 (QIC) 的新型算法策略，该策略基于分位数约束策略优化。QIC 对系统上述所有方面做出联合的、高质量的、快速的决策，旨在最大限度地降低推理能耗。我们注意到，这是第一个将门控动态 DNN 与基础设施级决策相结合的贡献。我们使用具有茎和分支的动态门控 DNN（用于最佳传感器融合和推理）评估 QIC，该 DNN 在提供雷达、激光雷达和摄像机数据的 RADIATE 数据集和真实世界的无线测量数据上进行训练。我们的结果证实，QIC 与最优值相匹配，并且其性能优于其他替代方案 80% 以上。