LLM2D
多维度视觉模型剪枝带延迟约束
MDP: Multidimensional Vision Model Pruning with Latency Constraint
作者: Xinglong Sun, Barath Lakshmanan, Maying Shen, Shiyi Lan, Jingde Chen, Jose M. Alvarez
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02168v1

摘要

arXiv:2504.02168v1 交叉类型: cross 摘要: 当前的结构裁剪方法面临两大显著限制:(i) 它们往往将裁剪局限于更细粒度的层面,如通道,这使得参数削减过于保守;(ii) 它们主要集中在参数和FLOP的削减上,现有的针对延迟的设计方法经常依赖于简单的、次优的线性模型,这些模型在变压器等涉及多个相互作用维度的场景中难以很好地泛化。在本文中,我们通过引入多维裁剪(Multi-Dimensional Pruning, MDP)这一新颖的范式,同时在各种裁剪粒度上进行优化,包括通道、查询、键、头部、嵌入和块,来解决这两个限制。MDP采用了一种先进的延迟建模技术,能够准确捕捉所有可裁剪维度上的延迟变化,从而在延迟和精度之间实现最佳平衡。通过重新定义裁剪为混合整数非线性规划问题(MINLP),MDP能够高效地在整个可裁剪维度上识别出最优的裁剪结构,并遵守延迟约束。这种灵活的框架同时支持CNN和变压器。广泛的实验表明,MDP显著优于先前的方法,尤其是在高裁剪率下。在ImageNet上,与以前的工作HALP对ResNet50进行裁剪相比,MDP实现了28%的速度提升,并且Top-1精度提高了1.4%。与最新的变压器裁剪方法Isomorphic相比,MDP还提供了额外37%的加速,并且Top-1精度提高了0.7%。