LLM2D

摘要

arXiv:2502.07832v1 宣告类型：交叉摘要：尽管大规模语言模型（LLMs）在自然语言处理任务上取得了进展，但它们不断增长的计算和内存需求使其在资源受限的设备（如手机）上的部署变得越来越具有挑战性。在本文中，我们提出了一种名为SHARP（SHaring Adjacent Layers with Recovery Parameters）的新方法，通过在相邻层之间共享参数来加速LLM推理，从而减少内存负载开销，并引入低秩恢复参数以保持性能。受连续层具有相似输出观察的启发，SHARP采用两阶段恢复过程：单层预热（SLW）和监督微调（SFT）。SLW阶段使用L2损失对共享层的输出进行对齐，为后续的SFT阶段提供良好的初始化，进一步恢复模型性能。大量的实验结果表明，SHARP可以在使用不超过50,000个微调数据的情况下，恢复各种同分布任务中的模型困惑度，同时将存储的MLP参数数量减少38%至65%。我们还进行了SHARP的几个消融研究，并展示了在匹配参数计数时，不同的恢复参数化表现相似。此外，与原版的Llama2-7b模型相比，SHARP在移动设备上节省了42.8%的模型存储空间，并将总推理时间减少了42.2%。我们的结果强调了SHARP作为无需大规模预训练资源即可减少部署LLM时推理成本的有效解决方案的地位。