LLM2D

摘要

大型语言模型 (LLM) 中的数学推理是一个高度活跃的研究领域，因为它体现了人工智能的标志性特征。然而，很少有研究探索数学推理是如何编码在 LLM 参数中的，以及它是否是一项可以在模型中分离的技能。这样做可以实现有针对性的干预，以提高数学性能而不会改变非数学行为，并促进对模型如何编码数学推理的理解。我们介绍了 Math Neurosurgery (MathNeuro)，这是一种仅使用前向传播来分离 LLM 中特定于数学的参数的方法。MathNeuro 基于现有工作，使用权重和激活来计算参数重要性，但通过去除对一般语言任务很重要的参数来分离特定于数学的参数。修剪 MathNeuro 识别的参数会删除 LLM 的数学推理能力，而不会破坏其一般语言能力。将这些参数按一个小的常数进行缩放，可以将预训练或指令微调的 LLM 在 GSM8K 上的性能提高 4-17%，同时保持非数学行为不变。MathNeuro 也是数据高效的：当使用单个样本识别特定于数学的参数时，其大部分有效性仍然存在。MathNeuro 突出了未来干预特定于数学的参数的潜力。