LLM2D

摘要

arXiv:2502.04348v2 宣告类型: replace-cross 摘要：深度剪枝旨在通过简单地移除几个较不重要的变压器块，从而减少大型语言模型的推理成本，而无需任何硬件特定的复杂性。然而，我们的实证研究发现，变压器块的重要性可能高度依赖于不同的任务——对某个任务至关重要的块可以在不影响另一个任务的准确性的前提下被移除。基于这一观察，我们开发了一种动态深度剪枝算法，称为 PuDDing（Prompt-routed Dynamic Depth Pruning），该算法根据输入提示来决定从模型中省略哪些块。PuDDing 通过训练一个轻量级路由器来预测在一组选项中最佳的省略集，而这些选项集也是通过数据驱动的方式构建的。在常识推理基准测试上的实证结果表明，PuDDing 有效地加速了推理语言模型，并在任务相关性能上优于静态深度剪枝baseline。