摘要
arXiv:2411.01332v3 Announce Type: replace-cross
摘要:尽管在XAI方面取得了显著进展,学者们注意到仍缺乏坚实的概念基础,并且与更广泛的科学解释讨论的整合不足。为此,新兴的XAI研究借鉴了来自各门科学及其科学哲学文献中的解释策略,以填补这些空白。本文概述了一种机制性的方法,用于解释深度学习系统的功能组织,并将最近的AI可解释性进展置于更广泛哲学的背景下。根据机制性方法,对于不透明的AI系统的解释涉及识别驱动决策的过程机制。对于深度神经网络而言,这意味着分辨功能相关的组件——如神经元、层、电路或激活模式——并通过分解、定位和重组来理解其作用。来自图像识别和语言建模的原理性案例研究与来自OpenAI和Anthropic等AI实验室的最新研究相吻合,这些理论方法与最新的研究相吻合。本文建议,这种系统的方法来研究模型组织可以揭示个体解释技术可能忽略的元素,从而促进更全面可解释的AI。