摘要
arXiv:2501.18887v2 宣告类型: 替换-交叉
摘要:AI系统日益增加的复杂性使得理解其行为成为了一个至关重要的挑战。已经开发出了多种方法将模型行为归因于三个关键方面:输入特征、训练数据和内部模型组件。然而,这些归因方法却是独立研究和应用的,导致了方法和术语上的分散化局面。本文立场论文提出,特征、数据和组件的归因方法在本质上具有根本的相似性,将它们联系起来可以提升可解释性研究。我们对这三类归因方面的成功方法进行了详细分析,并提出了一个统一的观点,展示了这些看似不同的方法在本质上采用了相似的方法,如扰动、梯度和线性近似,主要的不同在于视角而非核心技术。我们统一的观点增强了对现有归因方法的理解,识别了共同的概念和挑战,使该领域对于新手来说更加易于进入,并突显了不只在归因和可解释性方面,而在更广泛的AI研究(包括模型编辑、引导和监管)方面的新方向。