LLM2D
HyperDAS:面向超网络的机械可解释性自动化
HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks
作者: Jiuding Sun, Jing Huang, Sidharth Baskaran, Karel D'Oosterlinck, Christopher Potts, Michael Sklar, Atticus Geiger
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2503.10894v3

摘要

arXiv:2503.10894v3 宣告类型: 替换-交叉 摘要:机制可解释性在识别神经网络特征(例如,隐藏激活空间中的方向)方面取得了巨大进展,这些特征可以中介概念(例如,某人的出生年份)并实现可预测的操作。分布式对齐搜索 (DAS) 利用反事实数据的监督来在隐藏状态中学习概念特征,但 DAS 假设我们能够承担对潜在特征位置进行暴力搜索的成本。为了解决这个问题,我们提出了基于变压器的超网络架构 HyperDAS,该架构可以(1)自动定位概念在残差流中实现的标记位置,以及(2)为这些残差流向量构建概念的特征。在使用 Llama3-8B 的实验中,HyperDAS 在 RAVEL 基准测试中实现了最先进的表现,用于分离隐藏状态中的概念。此外,我们回顾了设计 HyperDAS 时所做的决策,以减轻这种担忧,即 HyperDAS(与所有强大的可解释性方法一样)可能会向目标模型注入新的信息,而不是忠实地解释它。