LLM2D

摘要

arXiv:2505.08080v1 交叉公告类型: cross 摘要: 稀疏自编码器（SAEs）最近已成为解读和控制大型语言模型（LLMs）内部表示的强大工具。然而，传统分析SAE的方法通常仅依赖于输入端的激活，而不考虑每个潜在特征与模型输出之间的因果影响。本文基于两个关键假设：（1）激活的潜在特征并不以相同的方式参与模型输出的构建，（2）只有具有高因果影响的潜在特征才有效用于模型控制。为了验证这些假设，我们提出了梯度稀疏自编码器（GradSAE），这是一种简单而有效的方法，通过结合输出端的梯度信息来识别最具影响力的潜在特征。