LLM2D
XAI的机理解释策略
A Mechanistic Explanatory Strategy for XAI
作者: Marcin Rabiza
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2411.01332v4

摘要

arXiv:2411.01332v4 宣布类型: replace-cross 摘要:尽管在 XAI 方面取得了显著进展,学者们继续指出其在建立稳健的概念基础以及与更广泛的科学解释讨论整合方面仍存在持续的不足。为应对这一挑战,新兴的 XAI 研究越来越多地借鉴来自不同科学学科和科学哲学领域的解释策略以填补这些空白。本文概述了一种机械论机制来解释深度学习系统的功能组织,并将最近在 AI 可解释性方面的进展置于更广泛哲学背景之下。根据机械论方法,解释不透明的 AI 系统涉及识别决策过程背后的机制。对于深度神经网络而言,这意味着识别功能相关的组件——如神经元、层、电路或激活模式——并通过分解、定位和重组来理解它们的作用。来自图像识别和语言建模的原理证明案例研究将这一理论框架与 OpenAI 和 Anthropic 最近的研究成果进行了对齐。研究结果表明,追求机械论解释可以揭示传统解释性技术可能忽略的元素,最终有助于更全面地解释 AI。