摘要
arXiv:2502.15090v1 宣告类型: cross
摘要: 现代大型语言模型(LLMs)在某些任务上取得了令人印象深刻的性能,但在其他任务上却表现出明显非人类的行为。这引发了这样一个问题:LLMs学习到的表示与人类的表示有多大的对齐程度。在本工作中,我们介绍了一种研究表示对齐的新方法:我们采用激活引导研究中的方法来识别负责特定概念(例如,“猫”)的神经元,然后分析相应的激活模式。我们的发现表明,LLMs的表示与从行为数据推断出的人类表示高度对齐。值得注意的是,这种对齐程度超过了先前工作中人类与模型对齐研究中的词嵌入所展现的程度。此外,我们的方法还使我们能够更精细地了解LLMs如何表示概念。具体来说,我们展示了LLMs以反映可为人类理解的层级关系来组织概念(例如,“动物”-“狗”)。