LLM2D
面向低秩蒸馏的大规模LLM数学推理加速
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation
作者: Harry Dong, Bilge Acun, Beidi Chen, Yuejie Chi
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07861v1

摘要

arXiv:2505.07861v1 声明类型: cross 摘要: 由于长期代际传播,大语言模型 (LLM) 的数学推理需要大量的计算资源和时间。虽然已经开发出了许多高效的推理方法,并且在语言任务上的性能表现优秀,但这些方法往往会对数学性能造成严重影响。本文提出了一种名为 Caprese 的低成本蒸馏方法,用于从部署高效的推理方法中恢复丢失的能力,主要集中在前向传播块。在原始权重未受干扰的情况下,仅增加约 1% 的额外参数,并使用大约 20K 的合成训练样本,我们能够恢复高效推理方法从大语言模型中丢失的大部分数学能力,但对于指令型大语言模型的语言任务没有造成伤害。此外,Caprese 减少了活跃参数的数量(在 Gemma 2 9B 和 Llama 3.1 8B 模型中减少约 2B),并与现有模型层无缝集成,从而降低了延迟(使用 Qwen 2.5 14B 生成 2048 个标记时降低超过 11% 的延迟)的同时鼓励简洁响应。