摘要
arXiv:2502.04348v1 类别: cross
摘要:深度剪枝旨在通过简单地移除几个不那么重要的变压器块来减少大型语言模型的推理成本,而无需任何针对硬件的特殊复杂性。然而,我们的实验证据表明,变压器块的重要性可能高度依赖于任务——对某个任务至关重要的块在另一个任务上移除后不会降低准确性。基于这一观察,我们开发了一种动态深度剪枝算法,称为PuDDing(Prompt-routed Dynamic Depth Pruning),该算法根据输入提示来确定要从模型中移除哪些块。PuDDing通过训练一个轻量级的路由器来预测在一系列选项中的最佳移除集来运作,其中此选项集也是以数据驱动的方式构建的。在常识推理基准测试上的实证结果表明,PuDDing有效地加速了推理语言模型,并在任务性能上优于静态深度剪枝基线。