LLM2D

摘要

arXiv:2410.06981v2 宣告类型: replace-cross 摘要：我们研究了大语言模型（LLMs）中的特征通用性，这是一个旨在理解不同模型如何在中间层的潜在空间中以类似方式表述概念的研究领域。证明特征通用性可以使潜在表示的研究成果在多个模型之间泛化。然而，由于多义性（即单一神经元通常对应多个特征而不是独立特征），跨LLM比较特征极具挑战性，使得难以分解和匹配不同模型中的特征。为了解决这一问题，我们使用稀疏自编码器（SAEs）通过将LLM激活转换到由对应于单一特征的神经元生成的更具可解释性的空间来采用字典学习方法。在通过激活相关性匹配不同模型的特征神经元后，我们使用不同LLM的SAE特征空间上的表示空间相似度度量。我们的实验揭示了各种LLM的SAE特征空间之间的显著相似性，提供了特征通用性的新证据。