摘要
arXiv:2502.10871v1 标题类型: cross
摘要:这项研究探讨了大型语言模型(LLMs)如何在变压器层之间表示和回忆多相关属性。研究表明,中间层通过在重叠的空间中叠加相关属性来编码事实知识,即使在没有明确提示属性的情况下也能有效地回忆。相比之下,后续层则会细化语言模式,逐步分离属性表示,在优化特定任务输出的同时适当地缩小属性回忆范围。我们识别出多种编码模式,其中包括在探索与元素周期表相关的信息时首次观察到的3D螺旋结构。我们的发现揭示了层间属性表示的动态转变,有助于机械可解释性的提升,并为理解LLMs如何处理复杂的相互关联知识提供了洞见。