LLM2D
数学神经外科:仅使用前向传播隔离语言模型的数学推理能力
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
作者: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16930v1

摘要

大型语言模型 (LLM) 中的数学推理是一个高度活跃的研究领域,因为它体现了人工智能的标志性特征。然而,很少有研究探索数学推理是如何编码在 LLM 参数中的,以及它是否是一项可以在模型中分离的技能。这样做可以实现有针对性的干预,以提高数学性能而不会改变非数学行为,并促进对模型如何编码数学推理的理解。我们介绍了 Math Neurosurgery (MathNeuro),这是一种仅使用前向传播来分离 LLM 中特定于数学的参数的方法。MathNeuro 基于现有工作,使用权重和激活来计算参数重要性,但通过去除对一般语言任务很重要的参数来分离特定于数学的参数。修剪 MathNeuro 识别的参数会删除 LLM 的数学推理能力,而不会破坏其一般语言能力。将这些参数按一个小的常数进行缩放,可以将预训练或指令微调的 LLM 在 GSM8K 上的性能提高 4-17%,同时保持非数学行为不变。MathNeuro 也是数据高效的:当使用单个样本识别特定于数学的参数时,其大部分有效性仍然存在。MathNeuro 突出了未来干预特定于数学的参数的潜力。