LLM2D

摘要

arXiv:2501.18887v2 宣告类型: 替换-交叉摘要：AI系统日益增加的复杂性使得理解其行为成为了一个至关重要的挑战。已经开发出了多种方法将模型行为归因于三个关键方面：输入特征、训练数据和内部模型组件。然而，这些归因方法却是独立研究和应用的，导致了方法和术语上的分散化局面。本文立场论文提出，特征、数据和组件的归因方法在本质上具有根本的相似性，将它们联系起来可以提升可解释性研究。我们对这三类归因方面的成功方法进行了详细分析，并提出了一个统一的观点，展示了这些看似不同的方法在本质上采用了相似的方法，如扰动、梯度和线性近似，主要的不同在于视角而非核心技术。我们统一的观点增强了对现有归因方法的理解，识别了共同的概念和挑战，使该领域对于新手来说更加易于进入，并突显了不只在归因和可解释性方面，而在更广泛的AI研究（包括模型编辑、引导和监管）方面的新方向。