LLM2D

摘要

arXiv:2301.04709v4 声明类型: 替换摘要: 因果抽象为机械解释性提供了理论基础，机械解释性是关注提供透明且忠实于已知（但不透明的）黑盒AI模型低级细节的可解释算法的研究领域。我们的贡献包括：(1) 将因果抽象的理论从机制替换（即，硬干涉和软干涉）推广到任意机制转换（即将旧机制映射到新机制的功能），(2) 提供了一种灵活且精确的核心概念形式化，包括多义神经元、线性表示假设、模块化特征以及分层忠实性，以及(3) 在因果抽象的共同语言中统一了许多机械解释性方法，包括激活和路径修补、因果中介分析、因果擦除、因果追踪、电路分析、概念删除、稀疏自编码器、差分二元遮蔽、分布式对齐搜索和引导。