LLM2D
通过电路分析理解大语言模型细调机制
Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis
作者: Xu Wang, Yan Hu, Wenyu Du, Reynold Cheng, Benyou Wang, Difan Zou
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11812v1

摘要

arXiv:2502.11812v1 Announce Type: 交叉 摘要:微调显著提高了大型语言模型(LLMs)的性能,但其背后的机制尚未完全理解。本文旨在通过电路分析这一在机制解释性(MI)中流行的工具,提供微调过程的深入解释。不同于之前的研究[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]集中在预训练模型已经表现良好的任务,我们在一组数学任务中开发了一套方法,这些任务通过微调可以带来显著的性能提升,更加接近实际应用场景。在我们的实验中,我们识别了微调过程中各个检查点的电路,并研究了电路分析、微调方法和任务复杂性之间的相互作用。首先,我们发现,在微调前后,电路中的节点保持了高度的相似性,但边发生了显著的变化,这与之前的工作[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]只显示微调后电路仅增加了某些额外组件的结果相反。基于这些观察,我们开发了一种电路感知的低秩适应(LoRA)方法,该方法根据电路中边的变化为各层分配秩。实验结果显示,我们的基于电路的LoRA算法在相似的参数大小下比标准LoRA平均提高了2.46%的性能。此外,我们探讨了如何结合子任务的电路来增强组合任务中的微调,为设计此类任务提供了新的见解,并加深了对电路动力学和微调机制的理解。