LLM2D
稀疏自动编码器揭示大型语言模型中的通用特征空间
Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
作者: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06981v1

摘要

我们研究了大型语言模型(LLMs)中的特征普适性,这是一个旨在理解不同模型如何在中间层的潜在空间中以类似方式表示概念的研究领域。证明特征普适性可以使关于潜在表示的发现推广到多个模型。然而,由于多义性,在不同的 LLMs 之间比较特征具有挑战性,在多义性中,单个神经元通常对应于多个特征,而不是不同的特征。这使得难以在不同模型之间解开和匹配特征。为了解决这个问题,我们采用了一种称为字典学习的方法,通过使用稀疏自动编码器 (SAEs) 将 LLM 激活转换为由对应于单个特征的神经元跨越的更易解释的空间。在通过激活相关性匹配跨模型的特征神经元之后,我们应用表示空间相似性度量(如奇异值典型相关分析)来分析不同 LLMs 中的这些 SAE 特征。我们的实验揭示了各种 LLMs 中 SAE 特征空间的显着相似性,为特征普适性提供了新的证据。