摘要
arXiv:2504.03794v1 类型: cross
摘要: 随着大型语言模型不断扩展,它们日益增长的计算和存储需求为实际部署带来了重大挑战。在这项工作中,我们研究了基于Transformer的模型中的冗余,并提出了一种基于熵的剪枝策略,以提高效率同时保持性能。实证分析表明,隐藏表示的熵在早期块中减少,但在大多数后续块中逐渐增加。这一趋势表明,熵是衡量计算块中信息丰富度的有效指标。与主要捕捉几何关系的余弦相似性不同,熵直接量化不确定性及信息内容,使其成为更可靠的剪枝标准。广泛的实验表明,我们的基于熵的剪枝方法在减少模型大小的同时保持准确性,为高效模型部署提供了有前途的方向。