摘要
arXiv:2502.07832v1 宣告类型:交叉
摘要:尽管大规模语言模型(LLMs)在自然语言处理任务上取得了进展,但它们不断增长的计算和内存需求使其在资源受限的设备(如手机)上的部署变得越来越具有挑战性。在本文中,我们提出了一种名为SHARP(SHaring Adjacent Layers with Recovery Parameters)的新方法,通过在相邻层之间共享参数来加速LLM推理,从而减少内存负载开销,并引入低秩恢复参数以保持性能。受连续层具有相似输出观察的启发,SHARP采用两阶段恢复过程:单层预热(SLW)和监督微调(SFT)。SLW阶段使用L2损失对共享层的输出进行对齐,为后续的SFT阶段提供良好的初始化,进一步恢复模型性能。大量的实验结果表明,SHARP可以在使用不超过50,000个微调数据的情况下,恢复各种同分布任务中的模型困惑度,同时将存储的MLP参数数量减少38%至65%。我们还进行了SHARP的几个消融研究,并展示了在匹配参数计数时,不同的恢复参数化表现相似。此外,与原版的Llama2-7b模型相比,SHARP在移动设备上节省了42.8%的模型存储空间,并将总推理时间减少了42.2%。我们的结果强调了SHARP作为无需大规模预训练资源即可减少部署LLM时推理成本的有效解决方案的地位。