摘要
arXiv:2504.13151v1 交叉类型
摘要:我们如何知道新的机制可解释性方法是否实现了实际的进步?为了追求有意义和持久的评估标准,我们提出了MIB基准,该基准涵盖了四个任务和五个模型的两个轨。MIB偏向前者能够准确且简洁地恢复神经语言模型中相关因果路径或特定因果变量的方法。电路定位轨比较了能够定位执行任务最重要的模型组件及其之间连接的方法(例如:归因补丁或信息流路径)。因果变量定位轨则比较了能够特征化隐藏向量(例如:稀疏自编码器(SAEs)或分布式对齐搜索(DAS))并将模型特征与任务相关的因果变量定位的方法。使用MIB,我们发现归因和掩码优化方法在电路定位方面表现最佳。对于因果变量定位,我们发现监督DAS方法表现最佳,而SAE特征与神经元(即,隐藏向量的标准维度)相比并没有显示出更好的效果。这些发现表明,MIB能够进行有意义的方法比较,并增强我们对领域内确实取得了实际进步的信心。