LLM2D

摘要

arXiv:2403.17154v2 宣布类型: replace-cross 摘要：决定在边缘AI层级中使用哪些操作符组合以实现特定的延迟和模型性能要求是一个悬而未决的问题，特别是对于MLOps工程师而言。本研究旨在实证评估不同黑盒边缘AI部署策略的精度与推理时间权衡，即部署操作符和部署层级的不同组合。在本文中，我们针对四种广泛使用的计算机视觉模型进行了涉及三种部署操作符（即分区、量化、早期退出）和三种部署层级（即移动、边缘、云）及其组合的推理实验，以从MLOps开发者的角度探讨最优策略。我们的发现表明，当对中等精度损失下的更快延迟有所关注时，可以优先考虑使用混合量化+早期退出操作符进行边缘部署，而不仅仅是边缘量化/移动边缘早期退出或移动边缘分区操作符。然而，当最大化精度损失时，MLOps工程师应优先选择在移动边缘部署仅使用量化操作符，以实现延迟降低或增加的效果，而不是移动边缘/早期退出和分区操作符。在受制于移动CPU/RAM资源的场景中，观察到在移动和边缘层级中使用跨层级分区的偏好超过移动部署。对于具有较小输入数据样本的模型（如FCN），网络受限的云部署也可以比移动/边缘部署和分区策略更优。对于具有大量输入数据样本的模型（如ResNet、ResNext、DUC），具有更高网络/计算能力的边缘层级，可以比分区和移动/云部署策略更具可行性。