LLM2D

摘要

arXiv:2403.17154v3 宣告类型：replace-cross 摘要：确定在边缘AI层级中使用哪些操作符组合以满足特定的延迟和模型性能要求是MLOps工程师面临的开放问题。本文旨在实证评估不同黑盒边缘AI部署策略的准确率与推理时间之间的权衡，即不同部署操作符和部署层级的组合。在本文中，我们进行了涉及3种部署操作符（即分割、量化、提前退出）和3种部署层级（即移动设备、边缘、云端）及其组合的推理实验，以从MLOps开发者的角度来看待最优策略。我们的研究结果表明，在中等准确率损失下，当需要更快的延迟时，可以优先采用混合量化+提前退出操作符进行边缘部署，而不是非混合操作符（边缘设备上的量化/提前退出，移动边缘设备上的分割）。然而，当减少准确率损失是优先考虑的问题时，MLOps工程师应优先选择在边缘设备上只使用量化操作符，以换取延迟的减少或提高，而不是提前退出/分割（在边缘/移动边缘设备上）和量化提前退出（在边缘设备上）的操作符。在受限于移动CPU/RAM资源的场景中，观察到在移动设备和边缘设备层级上进行分割的偏好超过了移动设备部署。对于输入数据样本较小的模型（如FCN），网络受限的云端部署也可以作为一个比移动设备/边缘设备部署和分割策略更好的替代方案。对于输入数据样本较大的模型（如ResNet、ResNext、DUC），具有高于云端/移动设备网络/计算能力的边缘设备层级可能比分割和移动设备/云端部署策略更具可行性。