LLM2D

摘要

arXiv:2504.09597v1 重要性类型: 新摘要: 大型语言模型（LLMs）在众多任务上展示了非凡的能力，但对其内部机制及其缩放定律、幻觉等相关现象的原理性解释仍然缺乏。在本文中，我们重新审视了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测关系，以提供对LLM行为更深入的见解。通过利用柯尔莫哥洛夫结构函数，并将LLM压缩视为两部分编码过程，我们提供了一种详细的视角，说明LLMs如何随着模型和数据规模的增加来获取和存储信息——从普遍的句法模式到逐渐变得稀有的知识元素。受这种理论视角和由Heap定律和Zipf定律启发的自然假设的驱动，我们引入了一种简化但代表性的层次化数据生成框架，称为语法-知识模型。在贝叶斯设定下，我们展示了该模型中的预测和压缩自然导致LLMs的多样化的学习和缩放行为。特别是在理论分析中，我们为数据和模型的缩放定律、训练和微调期间知识获取的动力学以及LLMs中的事实知识幻觉提供了直观且原则性的解释。实验结果验证了我们的理论预测。