LLM2D

摘要

arXiv:2502.10047v1 宣布类型: cross 摘要：视觉变换器（ViTs）已经在各种计算机视觉任务中超越了传统的卷积神经网络架构，并实现了最先进的结果。由于ViTs计算成本高昂，这些模型要么只能在资源受限的边缘设备上进行剪枝运行，要么在接收通过波动网络传输的原始数据后，在远程云服务器上执行。由此导致的性能下降或高延迟都阻碍了它们的广泛应用。在本文中，我们提出了Janus，这是第一个用于动态网络上云-设备协作视觉变换器推理的低延迟框架。Janus克服了ViTs固有的模型限制，并实现了在云和边缘设备上协同执行ViT模型，实现了低延迟、高精度和低通信开销。具体来说，Janus巧妙地结合了令牌剪枝技术，并且采用了一个精心设计的从细到粗的模型拆分策略和非静态混合剪枝策略。它通过动态选择最优的剪枝级别和拆分点来在准确性和延迟之间取得平衡。在各种任务中的实验结果表明，与基线方法相比，在各种网络环境中，Janus的吞吐量提高了最多5.15倍，并且可将延迟违反比率降低高达98.7%。