LLM2D

摘要

arXiv:2505.07861v1 声明类型: cross 摘要: 由于长期代际传播，大语言模型 (LLM) 的数学推理需要大量的计算资源和时间。虽然已经开发出了许多高效的推理方法，并且在语言任务上的性能表现优秀，但这些方法往往会对数学性能造成严重影响。本文提出了一种名为 Caprese 的低成本蒸馏方法，用于从部署高效的推理方法中恢复丢失的能力，主要集中在前向传播块。在原始权重未受干扰的情况下，仅增加约 1% 的额外参数，并使用大约 20K 的合成训练样本，我们能够恢复高效推理方法从大语言模型中丢失的大部分数学能力，但对于指令型大语言模型的语言任务没有造成伤害。此外，Caprese 减少了活跃参数的数量（在 Gemma 2 9B 和 Llama 3.1 8B 模型中减少约 2B），并与现有模型层无缝集成，从而降低了延迟（使用 Qwen 2.5 14B 生成 2048 个标记时降低超过 11% 的延迟）的同时鼓励简洁响应。