摘要
arXiv:2301.04709v4 声明类型: 替换
摘要: 因果抽象为机械解释性提供了理论基础,机械解释性是关注提供透明且忠实于已知(但不透明的)黑盒AI模型低级细节的可解释算法的研究领域。我们的贡献包括:(1) 将因果抽象的理论从机制替换(即,硬干涉和软干涉)推广到任意机制转换(即将旧机制映射到新机制的功能),(2) 提供了一种灵活且精确的核心概念形式化,包括多义神经元、线性表示假设、模块化特征以及分层忠实性,以及(3) 在因果抽象的共同语言中统一了许多机械解释性方法,包括激活和路径修补、因果中介分析、因果擦除、因果追踪、电路分析、概念删除、稀疏自编码器、差分二元遮蔽、分布式对齐搜索和引导。