LLM2D

摘要

arXiv:2502.08474v1 交叉公告类型摘要：尽管网络剪枝已经被广泛应用于压缩深度神经网络，但其结果的准确性很大程度上依赖于一个常常代价高昂且需要原始数据的微调过程。然而，在实际场景中这并不一定适用，因此一些最近的工作尝试在不需要任何昂贵重新训练过程的情况下恢复剪枝网络。它们的一个强假设是每个被剪枝的神经元都可以被另一个几乎完全相同的神经元替代，但是很遗憾，在许多神经网络中，某些层内的神经系统之间的相似性非常低。在本文中，我们提出了一种在无需微调和无需数据的情况下恢复剪枝网络的更严格且更稳健的方法，称为LBYL（Leave Before You Leave）。LBYL通过一种方式显著放宽了上述假设，即每个被剪枝的神经元尽可能多地传递其信息给保留的神经元，从而使得多个神经元一起可以得到原始神经元刚离开时的更稳健的近似值。我们的方法基于如何公式化原始网络与其近似网络之间的重构误差的理论分析，这很自然地引导出我们导出的损失函数的闭式解。通过对大量的实验，LBYL被证实确实更有效地近似原始网络，从而使得恢复后的网络能够获得更高的准确性。相较于利用两个神经元之间相似性的最近方法，LBYL在效果上显得更为有效。本文的最初版本包含主要的技术和理论成分，已在2021年NeurIPS和2022年ICML提交。