LLM2D

摘要

arXiv:2501.18887v1 Announce Type: 偏移摘要：AI系统的日益复杂性使理解其行为成为一个关键性的挑战。已经开发出了许多方法将模型行为归因于三个关键方面：输入特征、训练数据和内部模型组件。然而，这些归因方法在研究和应用中往往是独立进行的，导致了方法和术语的碎片化。本文立场所主张的是，特征、数据和组件归因方法在基本原理上存在相似性，并且将它们相连接可以提高解释性研究的效果。我们对三个领域的成功方法进行了详细的分析，并提出了一个统一的观点，以展示这些看似不同的方法采用了类似的方法，例如扰动、梯度和线性近似，主要的区别在于视角而非核心技术。我们统一的视角增强了对现有归因方法的理解、识别了共同的概念与挑战、使该领域对新入门者更具可访问性，并突显了不仅在归因和解释性研究，还在更广泛的AI研究（包括模型编辑、导向和监管）中的新方向。