LLM2D

摘要

arXiv:2502.06106v1 计算机科学交叉领域摘要：机制可解释性研究旨在拆解模型以解释其行为。虽然近期研究集中于某种行为的静态机制，但模型内部的训练动态仍需进一步探索。本文中，我们开发了一种可解释的方法来微调模型并揭示学习背后的机制。我们首先提出了节点冗余的概念，将其作为固有维度的扩展，并从全新视角解释电路发现的理念。基于这一理论，我们提出了电路调优这一两阶段算法，该算法通过迭代进行电路发现来屏蔽无关边，并更新负责特定任务的剩余参数。实验表明，我们的方法不仅在广泛的任务上提高了性能，在保持通用能力的同时也具备扩展性。我们对微调之前、期间和之后的电路进行可视化和分析，提供了有关神经网络在学习过程中自我组织机制的新见解。