LLM2D
超越输入激活:通过梯度稀疏自编码器识别有影响力的潜在变量
Beyond Input Activations: Identifying Influential Latents by Gradient Sparse Autoencoders
作者: Dong Shu, Xuansheng Wu, Haiyan Zhao, Mengnan Du, Ninghao Liu
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08080v1

摘要

arXiv:2505.08080v1 交叉公告类型: cross 摘要: 稀疏自编码器(SAEs)最近已成为解读和控制大型语言模型(LLMs)内部表示的强大工具。然而,传统分析SAE的方法通常仅依赖于输入端的激活,而不考虑每个潜在特征与模型输出之间的因果影响。本文基于两个关键假设:(1)激活的潜在特征并不以相同的方式参与模型输出的构建,(2)只有具有高因果影响的潜在特征才有效用于模型控制。为了验证这些假设,我们提出了梯度稀疏自编码器(GradSAE),这是一种简单而有效的方法,通过结合输出端的梯度信息来识别最具影响力的潜在特征。