LLM2D

摘要

arXiv:2503.10894v3 宣告类型: 替换-交叉摘要：机制可解释性在识别神经网络特征（例如，隐藏激活空间中的方向）方面取得了巨大进展，这些特征可以中介概念（例如，某人的出生年份）并实现可预测的操作。分布式对齐搜索 (DAS) 利用反事实数据的监督来在隐藏状态中学习概念特征，但 DAS 假设我们能够承担对潜在特征位置进行暴力搜索的成本。为了解决这个问题，我们提出了基于变压器的超网络架构 HyperDAS，该架构可以（1）自动定位概念在残差流中实现的标记位置，以及（2）为这些残差流向量构建概念的特征。在使用 Llama3-8B 的实验中，HyperDAS 在 RAVEL 基准测试中实现了最先进的表现，用于分离隐藏状态中的概念。此外，我们回顾了设计 HyperDAS 时所做的决策，以减轻这种担忧，即 HyperDAS（与所有强大的可解释性方法一样）可能会向目标模型注入新的信息，而不是忠实地解释它。