LLM2D

摘要

arXiv:2403.01695v3 Announce Type: replace-cross 摘要：传统的深度学习（DL）模型压缩和扩展方法侧重于修改模型的组件，对所有样本产生均匀的影响。然而，由于样本的难度不同，一种基于样本复杂度动态调整计算的动态模型为压缩和扩展提供了新的视角。尽管如此，现有的动态模型通常是单一的且特定于模型的，限制了它们作为广泛的压缩和扩展方法的通用性。此外，大多数部署的DL系统是固定的，在部署后无法调整其规模，因此不能适应不断变化的实时需求。本文介绍了DyCE，这是一种在运行时可以无需重新初始化或重新部署在推理硬件上调整DL模型的性能-复杂性trade-off的动态可配置系统。DyCE通过在原始模型的中间层添加小型退出网络实现这一目标，允许在获得可接受的结果时提前终止计算。DyCE还解耦了高效动态模型的设计，便于新的基础模型适应，并有可能在压缩和扩展中广泛应用。我们还提出了生成优化配置和确定退出网络类型及位置的方法，以实现所需的性能和复杂性trade-off。通过简单的配置切换，DyCE提供实时的精细粒度性能调节。我们通过使用深度卷积神经网络（CNNs）进行图像分类任务，展示了DyCE的有效性。DyCE在ImageNet中分别将ResNet152和ConvNextv2-tiny的计算复杂性减少了23.5%和25.9%，准确率损失不到0.5%。