LLM2D

摘要

arXiv:2502.11196v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）在知识密集型任务中表现出卓越的能力，但它们在理解如何内化新知识方面面临着一个关键的差距，尤其是在如何在神经计算中结构化嵌入获得的知识方面。我们通过知识电路进化的视角来解决这一问题，识别出有助于知识存储和处理的计算子图。我们对持续预训练过程中电路进化系统的分析揭示了几个关键发现：（1）新知识的获得受到与先存知识的相关性影响；（2）知识电路的进化表现出从形成到优化的明显阶段转变；（3）知识电路的进化遵循从深到浅的模式。这些洞察不仅推进了我们对LLMs中新知识获取机制的理论理解，还为提高持续预训练策略以增强模型性能提供了潜在的指导。代码和数据将在https://github.com/zjunlp/DynamicKnowledgeCircuits上提供。