LLM2D

摘要

arXiv:2502.10871v1 标题类型: cross 摘要：这项研究探讨了大型语言模型（LLMs）如何在变压器层之间表示和回忆多相关属性。研究表明，中间层通过在重叠的空间中叠加相关属性来编码事实知识，即使在没有明确提示属性的情况下也能有效地回忆。相比之下，后续层则会细化语言模式，逐步分离属性表示，在优化特定任务输出的同时适当地缩小属性回忆范围。我们识别出多种编码模式，其中包括在探索与元素周期表相关的信息时首次观察到的3D螺旋结构。我们的发现揭示了层间属性表示的动态转变，有助于机械可解释性的提升，并为理解LLMs如何处理复杂的相互关联知识提供了洞见。