LLM2D

摘要

arXiv:2501.18980v1 宣告类型: cross 摘要: Wanda和RIA等流行的后训练裁剪方法因其简单而有效的设计而闻名，这些设计在实验上表现出色。Wanda通过修剪期间校准的激活来优化性能，而RIA强调权重元素的相对重要性，而非绝对重要性。尽管这些方法在实际应用中表现出色，但缺乏一个全面的理论基础来解释这些结果。本文引入了新的理论见解，重新定义了裁剪的标准最小化目标，提供了对其成功因素的更深入理解。我们的研究在此基础上进一步提出了一种互补策略，同时考虑输入激活和权重的重要性。我们通过严格的实验验证了这些方法，展示了相对于现有方法的巨大改进。此外，我们引入了一种新的无训练微调方法 $R^2$-DSnoT，该方法在动态裁剪和生长框架中结合了相对权重重要性和规范化决策边界，显著优于强基线，并建立了新的性能基准。