LLM2D

摘要

arXiv:2502.11450v1 交叉类型: cross 摘要: 裁剪提供了缓解部署大型深度神经网络(DNNs)相关成本和环境影响的有希望的解决方案。传统方法依赖于计算成本高昂的训练模型或耗时的剪枝-重新训练循环，这在资源受限的环境中削弱了其实用性。为了解决这一问题，我们基于LeCun等人（1989）提出的显著性原理和Lee等人（2018）提出的连接敏感性原理，解决了一次性剪枝神经网络(NNs)的问题，该剪枝发生在训练初始阶段。我们引入了基于经验费雪信息矩阵(FIM)对角线的费雪-泰勒敏感性(FTS)，这是一种计算成本低廉且高效的剪枝准则，提供了将一阶和二阶信息结合以识别模型结构上重要的参数的可行替代方案。虽然FIM-海森矩阵等价性仅在收敛且最大化似然性的模型中成立，但最近的研究(Karakida等人，2019)表明，在初始状态下，FIM捕获了过参数化NNs中参数的重要几何信息，为我们的方法提供了基础。最后，我们在实验中证明，数据依赖性剪枝方法的重要限制之一层崩溃，通过在初始化后单个训练周期内进行剪枝，可以轻易克服。我们对ResNet18和VGG19在CIFAR-10和CIFAR-100上进行了实验，这是剪枝研究中广泛使用的基准。我们的方法在一次性PBT中实现了与最先进的技术相当的性能，即使在极端稀疏条件下也是如此。我们的代码已向公众开源。