LLM2D

摘要

arXiv:2502.11812v1 Announce Type: 交叉摘要：微调显著提高了大型语言模型（LLMs）的性能，但其背后的机制尚未完全理解。本文旨在通过电路分析这一在机制解释性（MI）中流行的工具，提供微调过程的深入解释。不同于之前的研究[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]集中在预训练模型已经表现良好的任务，我们在一组数学任务中开发了一套方法，这些任务通过微调可以带来显著的性能提升，更加接近实际应用场景。在我们的实验中，我们识别了微调过程中各个检查点的电路，并研究了电路分析、微调方法和任务复杂性之间的相互作用。首先，我们发现，在微调前后，电路中的节点保持了高度的相似性，但边发生了显著的变化，这与之前的工作[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]只显示微调后电路仅增加了某些额外组件的结果相反。基于这些观察，我们开发了一种电路感知的低秩适应（LoRA）方法，该方法根据电路中边的变化为各层分配秩。实验结果显示，我们的基于电路的LoRA算法在相似的参数大小下比标准LoRA平均提高了2.46%的性能。此外，我们探讨了如何结合子任务的电路来增强组合任务中的微调，为设计此类任务提供了新的见解，并加深了对电路动力学和微调机制的理解。