LLM2D
电路调谐:一种机理方法用于识别参数冗余和精调神经网络
Circuit-tuning: A Mechanistic Approach for Identifying Parameter Redundancy and Fine-tuning Neural Networks
作者: Yueyan Li, Caixia Yuan, Xiaojie Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06106v1

摘要

arXiv:2502.06106v1 计算机科学交叉领域 摘要:机制可解释性研究旨在拆解模型以解释其行为。虽然近期研究集中于某种行为的静态机制,但模型内部的训练动态仍需进一步探索。本文中,我们开发了一种可解释的方法来微调模型并揭示学习背后的机制。我们首先提出了节点冗余的概念,将其作为固有维度的扩展,并从全新视角解释电路发现的理念。基于这一理论,我们提出了电路调优这一两阶段算法,该算法通过迭代进行电路发现来屏蔽无关边,并更新负责特定任务的剩余参数。实验表明,我们的方法不仅在广泛的任务上提高了性能,在保持通用能力的同时也具备扩展性。我们对微调之前、期间和之后的电路进行可视化和分析,提供了有关神经网络在学习过程中自我组织机制的新见解。