摘要
arXiv:2502.14910v1 宣告类型: cross
摘要:大规模语言模型(LLMs)在自然语言处理任务中取得了显著的成功,但它们庞大的规模和计算需求阻碍了它们在资源受限环境中的部署。现有的结构剪枝方法通过从模型中移除冗余结构(例如,元素、通道、层)来解决这一问题。然而,这些方法采用了一种启发式剪枝策略,导致性能次优。此外,它们在剪枝模型时忽略了数据特性。
为克服这些限制,我们提出了一种名为EvoP的进化剪枝框架,用于稳健的LLM推理。EvoP首先提出了一种基于聚类的校准数据集采样(CCDS)策略,以创建更多样化且更具代表性的校准数据集。EvoP然后引入了一种进化剪枝模式搜索(EPPS)方法,以找到最佳剪枝模式。与现有的结构剪枝技术相比,EvoP在保持最佳效率的同时实现了最佳性能。在不同LLM和不同下游任务上的实验验证了所提出的EvoP的有效性,使其成为在实际应用中部署LLM的一种实用且可扩展的解决方案。