LLM2D
建立桥梁,而不是隔墙——通过统一特征、数据和模型组件的归因推动可解释性的发展
Building Bridges, Not Walls -- Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution
作者: Shichang Zhang, Tessa Han, Usha Bhalla, Hima Lakkaraju
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18887v1

摘要

arXiv:2501.18887v1 Announce Type: 偏移 摘要:AI系统的日益复杂性使理解其行为成为一个关键性的挑战。已经开发出了许多方法将模型行为归因于三个关键方面:输入特征、训练数据和内部模型组件。然而,这些归因方法在研究和应用中往往是独立进行的,导致了方法和术语的碎片化。本文立场所主张的是,特征、数据和组件归因方法在基本原理上存在相似性,并且将它们相连接可以提高解释性研究的效果。我们对三个领域的成功方法进行了详细的分析,并提出了一个统一的观点,以展示这些看似不同的方法采用了类似的方法,例如扰动、梯度和线性近似,主要的区别在于视角而非核心技术。我们统一的视角增强了对现有归因方法的理解、识别了共同的概念与挑战、使该领域对新入门者更具可访问性,并突显了不仅在归因和解释性研究,还在更广泛的AI研究(包括模型编辑、导向和监管)中的新方向。