LLM2D
机制可解释性基准(MIB)
MIB: A Mechanistic Interpretability Benchmark
作者: Aaron Mueller, Atticus Geiger, Sarah Wiegreffe, Dana Arad, Iv\'an Arcuschin, Adam Belfki, Yik Siu Chan, Jaden Fiotto-Kaufman, Tal Haklay, Michael Hanna, Jing Huang, Rohan Gupta, Yaniv Nikankin, Hadas Orgad, Nikhil Prakash, Anja Reusch, Aruna Sankaranarayanan, Shun Shao, Alessandro Stolfo, Martin Tutek, Amir Zur, David Bau, Yonatan Belinkov
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.13151v1

摘要

arXiv:2504.13151v1 交叉类型 摘要:我们如何知道新的机制可解释性方法是否实现了实际的进步?为了追求有意义和持久的评估标准,我们提出了MIB基准,该基准涵盖了四个任务和五个模型的两个轨。MIB偏向前者能够准确且简洁地恢复神经语言模型中相关因果路径或特定因果变量的方法。电路定位轨比较了能够定位执行任务最重要的模型组件及其之间连接的方法(例如:归因补丁或信息流路径)。因果变量定位轨则比较了能够特征化隐藏向量(例如:稀疏自编码器(SAEs)或分布式对齐搜索(DAS))并将模型特征与任务相关的因果变量定位的方法。使用MIB,我们发现归因和掩码优化方法在电路定位方面表现最佳。对于因果变量定位,我们发现监督DAS方法表现最佳,而SAE特征与神经元(即,隐藏向量的标准维度)相比并没有显示出更好的效果。这些发现表明,MIB能够进行有意义的方法比较,并增强我们对领域内确实取得了实际进步的信心。