LLM2D

摘要

arXiv:2504.03794v1 类型: cross 摘要: 随着大型语言模型不断扩展，它们日益增长的计算和存储需求为实际部署带来了重大挑战。在这项工作中，我们研究了基于Transformer的模型中的冗余，并提出了一种基于熵的剪枝策略，以提高效率同时保持性能。实证分析表明，隐藏表示的熵在早期块中减少，但在大多数后续块中逐渐增加。这一趋势表明，熵是衡量计算块中信息丰富度的有效指标。与主要捕捉几何关系的余弦相似性不同，熵直接量化不确定性及信息内容，使其成为更可靠的剪枝标准。广泛的实验表明，我们的基于熵的剪枝方法在减少模型大小的同时保持准确性，为高效模型部署提供了有前途的方向。