LLM2D
因果抽象:机制可解释性的理论基础
Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability
作者: Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2301.04709v4

摘要

arXiv:2301.04709v4 声明类型: 替换 摘要: 因果抽象为机械解释性提供了理论基础,机械解释性是关注提供透明且忠实于已知(但不透明的)黑盒AI模型低级细节的可解释算法的研究领域。我们的贡献包括:(1) 将因果抽象的理论从机制替换(即,硬干涉和软干涉)推广到任意机制转换(即将旧机制映射到新机制的功能),(2) 提供了一种灵活且精确的核心概念形式化,包括多义神经元、线性表示假设、模块化特征以及分层忠实性,以及(3) 在因果抽象的共同语言中统一了许多机械解释性方法,包括激活和路径修补、因果中介分析、因果擦除、因果追踪、电路分析、概念删除、稀疏自编码器、差分二元遮蔽、分布式对齐搜索和引导。