摘要
arXiv:2501.18887v1 Announce Type: 偏移
摘要:AI系统的日益复杂性使理解其行为成为一个关键性的挑战。已经开发出了许多方法将模型行为归因于三个关键方面:输入特征、训练数据和内部模型组件。然而,这些归因方法在研究和应用中往往是独立进行的,导致了方法和术语的碎片化。本文立场所主张的是,特征、数据和组件归因方法在基本原理上存在相似性,并且将它们相连接可以提高解释性研究的效果。我们对三个领域的成功方法进行了详细的分析,并提出了一个统一的观点,以展示这些看似不同的方法采用了类似的方法,例如扰动、梯度和线性近似,主要的区别在于视角而非核心技术。我们统一的视角增强了对现有归因方法的理解、识别了共同的概念与挑战、使该领域对新入门者更具可访问性,并突显了不仅在归因和解释性研究,还在更广泛的AI研究(包括模型编辑、导向和监管)中的新方向。